移動省級NG2BASS3.0技術(shù)規(guī)范元數(shù)據(jù)管理_第1頁
移動省級NG2BASS3.0技術(shù)規(guī)范元數(shù)據(jù)管理_第2頁
移動省級NG2BASS3.0技術(shù)規(guī)范元數(shù)據(jù)管理_第3頁
移動省級NG2BASS3.0技術(shù)規(guī)范元數(shù)據(jù)管理_第4頁
移動省級NG2BASS3.0技術(shù)規(guī)范元數(shù)據(jù)管理_第5頁
已閱讀5頁,還剩147頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、qb-j-xxx-xxxx 中國移動通信企業(yè)標(biāo)準(zhǔn)qb-j-xxx-xxxx中國移動省級ng2-bass技術(shù)規(guī)范元數(shù)據(jù)管理分冊(征求意見稿)the metadata management fascicule of new generation business analysis support system版本號:3.0.02010-xx-xx實施2010-xx-xx發(fā)布中國移動通信有限公司 發(fā)布目錄1.范圍12.規(guī)范性引用文件13.術(shù)語、定義和縮略語14.經(jīng)營分析系統(tǒng)元數(shù)據(jù)概述34.1.經(jīng)營分析系統(tǒng)元數(shù)據(jù)的概念34.2.經(jīng)營分析系統(tǒng)的元數(shù)據(jù)管理34.2.1.元數(shù)據(jù)管理的目標(biāo)34.2.2.元數(shù)據(jù)

2、管理的范疇44.3.經(jīng)營分析系統(tǒng)元模型54.3.1.經(jīng)營分析系統(tǒng)元模型概述54.3.2.cwm概述64.3.3.經(jīng)營分析系統(tǒng)元模型與cwm的關(guān)系94.3.4.經(jīng)營分析系統(tǒng)核心元模型概述95.元數(shù)據(jù)管理體系結(jié)構(gòu)105.1.功能結(jié)構(gòu)105.2.技術(shù)結(jié)構(gòu)126.元數(shù)據(jù)管理功能要求136.1.元數(shù)據(jù)獲取136.1.1.元數(shù)據(jù)獲取方式136.1.2.元數(shù)據(jù)自動獲取管理功能156.2.sql腳本自動解析166.2.1.運行日志的輸出要求186.2.2.sql詞法語法分析266.2.3.sql語義分析與元數(shù)據(jù)生成276.2.4.元數(shù)據(jù)入庫處理476.2.5.sql腳本上下文處理486.2.6.多路徑問題和信

3、息丟失問題的處理536.3.tcl腳本自動解析536.4.元數(shù)據(jù)存儲556.4.1.元數(shù)據(jù)存儲內(nèi)容556.4.2.元數(shù)據(jù)存儲方式626.5.元數(shù)據(jù)基本功能636.5.1.元數(shù)據(jù)維護636.5.2.元數(shù)據(jù)變更管理636.5.3.元數(shù)據(jù)查詢636.5.4.元數(shù)據(jù)統(tǒng)計646.5.5.元數(shù)據(jù)使用情況統(tǒng)計646.6.元數(shù)據(jù)分析功能646.6.1.血緣分析646.6.2.影響分析656.6.3.數(shù)據(jù)地圖展現(xiàn)656.6.4.實體關(guān)聯(lián)分析726.6.5.實體差異分析726.6.6.主機拓撲分析726.6.7.指標(biāo)一致性分析736.7.元數(shù)據(jù)質(zhì)量管理736.7.1.元數(shù)據(jù)質(zhì)量檢查概述736.7.2.元數(shù)據(jù)一致性

4、檢查736.7.3.元數(shù)據(jù)關(guān)系健全性檢查766.7.4.元數(shù)據(jù)屬性檢查776.8.元數(shù)據(jù)服務(wù)接口776.8.1.元數(shù)據(jù)服務(wù)接口概述776.8.2.元數(shù)據(jù)封裝技術(shù)實現(xiàn)786.8.3.元數(shù)據(jù)封裝服務(wù)原語796.8.4.元數(shù)據(jù)封裝接口應(yīng)用846.9.元數(shù)據(jù)權(quán)限管理947.元數(shù)據(jù)應(yīng)用要求947.1.指標(biāo)庫管理957.1.1.指標(biāo)庫管理內(nèi)容957.1.2.指標(biāo)庫規(guī)范化要求957.1.3.指標(biāo)庫管理功能957.2.業(yè)務(wù)術(shù)語自助學(xué)習(xí)967.2.1.本地自助學(xué)習(xí)967.2.2.在線自助學(xué)習(xí)977.3.維表庫管理977.3.1.管理范圍987.3.2.功能要求987.3.3.管理場景1067.4.接口管理107

5、7.4.1.管理范圍1087.4.2.功能要求1087.5.兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通1117.5.1.整體架構(gòu)1117.5.2.元數(shù)據(jù)互通內(nèi)容1127.5.3.元數(shù)據(jù)互通接口標(biāo)準(zhǔn)1137.5.4.功能要求1137.6.輔助應(yīng)用優(yōu)化1147.6.1.應(yīng)用開發(fā)與上線階段1147.6.2.應(yīng)用評估與優(yōu)化階段1147.6.3.應(yīng)用退出與恢復(fù)階段1167.7.輔助安全管理1167.7.1.數(shù)據(jù)敏感度管理1167.7.2.敏感度服務(wù)接口1187.7.3.客戶隱私信息管理1217.7.4.客戶隱私信息服務(wù)接口1217.8.基于元數(shù)據(jù)的開發(fā)管理1227.8.1.開發(fā)過程與元數(shù)據(jù)的關(guān)系1237.8.2.開發(fā)過

6、程各階段功能1257.9.數(shù)據(jù)質(zhì)量管理1318.元數(shù)據(jù)變更流程管理1328.1.元數(shù)據(jù)變更流程定義1328.2.元數(shù)據(jù)變更流程管理的功能要求1338.3.元數(shù)據(jù)變更流程的執(zhí)行1348.3.1.指標(biāo)庫管理中的元數(shù)據(jù)變更流程1348.3.2.開發(fā)過程中的元數(shù)據(jù)變更流程1349.系統(tǒng)技術(shù)要求1359.1.元數(shù)據(jù)管理遵循標(biāo)準(zhǔn)的要求1359.2.元數(shù)據(jù)質(zhì)量管理要求1359.2.1.元數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量要求1359.2.2.元數(shù)據(jù)獲取過程的質(zhì)量要求1369.3.元數(shù)據(jù)管理工具的要求1369.3.1.元數(shù)據(jù)抽取工具1379.3.2.元數(shù)據(jù)展示及分析工具1379.3.3.元數(shù)據(jù)維護工具1379.4.元數(shù)據(jù)存儲

7、與備份要求1379.4.1.元數(shù)據(jù)庫存儲要求1389.4.2.元數(shù)據(jù)庫備份要求1389.4.3.元數(shù)據(jù)文件存儲要求13910.編制歷史139附錄:工程實施指導(dǎo)144前言本規(guī)范的制訂是為了更好地實現(xiàn)元數(shù)據(jù)的管理,為包括數(shù)據(jù)質(zhì)量管理子系統(tǒng)和經(jīng)營分析系統(tǒng)的各類基礎(chǔ)技術(shù)和應(yīng)用提供支撐,加強經(jīng)營分析系統(tǒng)數(shù)據(jù)的管控力度,支撐經(jīng)營分析系統(tǒng)與源系統(tǒng)數(shù)據(jù)質(zhì)量協(xié)同,增強系統(tǒng)自身管理能力。本規(guī)范主要包括以下幾方面的內(nèi)容:經(jīng)營分析系統(tǒng)元數(shù)據(jù)概述、元數(shù)據(jù)管理體系結(jié)構(gòu)、元數(shù)據(jù)功能、元數(shù)據(jù)應(yīng)用、元數(shù)據(jù)變更流程管理和系統(tǒng)技術(shù)要求。在元數(shù)據(jù)功能部分,著重描述了元數(shù)據(jù)獲取、元數(shù)據(jù)質(zhì)量管理和元數(shù)據(jù)服務(wù)接口等功能。在元數(shù)據(jù)應(yīng)用部分,

8、重點介紹了兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通、維表庫管理和接口管理等應(yīng)用。本標(biāo)準(zhǔn)的附錄一為規(guī)范性附錄。本標(biāo)準(zhǔn)由中移有限業(yè) xx 號文件印發(fā)。本規(guī)范由中國移動通信有限公司業(yè)務(wù)支撐系統(tǒng)部提出并歸口。本規(guī)范由歸口部門負責(zé)解釋。本規(guī)范起草單位:中國移動通信有限公司。本標(biāo)準(zhǔn)主要起草人:段云峰、何鴻凌、付峰、汪峰、尚晶、張韜、易劍光、楊秋雁、崔洪濤、陳濤、曾成、金駿、朱偉勝、秦曉飛、趙靜、徐少飛、鄧青、趙洪松、李倩、謝志崇、田長江、余疆、陶濤、肖建明、張紅星、魏春輝。iii1. 范圍本標(biāo)準(zhǔn)規(guī)定了中國移動省級經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理的建設(shè)內(nèi)容,供中國移動內(nèi)部和廠商共同使用;適用于中國移動各省(直轄市、自治區(qū))公司省級

9、經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理的建設(shè)。2. 規(guī)范性引用文件下列文件中的條款通過本標(biāo)準(zhǔn)的引用而成為本標(biāo)準(zhǔn)的條款。凡是標(biāo)注日期的引用文件,其隨后所有的修改單(不包括勘誤的內(nèi)容)或修訂版均不適用于本標(biāo)準(zhǔn)。然而,鼓勵根據(jù)本標(biāo)準(zhǔn)達成協(xié)議的各方對是否使用這些文件的最新版本進行研究。凡是不標(biāo)注日期的引用文件,其最新版本適用于本標(biāo)準(zhǔn)。1中國移動省級ng2-bass技術(shù)規(guī)范總冊(v3.0)中國移動通信有限公司2中國移動省級ng2-bass技術(shù)規(guī)范數(shù)據(jù)質(zhì)量管理子系統(tǒng)分冊(v3.0)中國移動通信有限公司3. 術(shù)語、定義和縮略語下列術(shù)語、定義適用于本標(biāo)準(zhǔn):字母名詞解釋ccwmcwm標(biāo)準(zhǔn)是omg組織定義的數(shù)據(jù)倉庫和相關(guān)系統(tǒng)的國

10、際元數(shù)據(jù)標(biāo)準(zhǔn),cwm標(biāo)準(zhǔn)的目的在于使得數(shù)據(jù)倉庫和商業(yè)智能軟件的元數(shù)據(jù)在分布異構(gòu)的數(shù)據(jù)分析工具,數(shù)據(jù)倉庫平臺,元數(shù)據(jù)存儲等系統(tǒng)之間交互。eetl特指從數(shù)據(jù)源系統(tǒng)到經(jīng)營分析系統(tǒng)的數(shù)據(jù)抽取、轉(zhuǎn)換和加載。g管理元數(shù)據(jù)描述經(jīng)營分析系統(tǒng)中管理領(lǐng)域相關(guān)概念、關(guān)系、規(guī)則的數(shù)據(jù),主要包括人員角色、崗位職責(zé)、管理流程等信息。h核心元模型經(jīng)營分析系統(tǒng)核心元模型是指以cwm元模型為基礎(chǔ)擴展而成的,針對經(jīng)營分析系統(tǒng)進行精確定義的元模型規(guī)范,是企業(yè)級的元模型規(guī)范。j技術(shù)元數(shù)據(jù)描述經(jīng)營分析系統(tǒng)中技術(shù)領(lǐng)域相關(guān)概念、關(guān)系、規(guī)則的數(shù)據(jù)。主要包括對數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方面的特征描述,覆蓋經(jīng)營分析系統(tǒng)數(shù)據(jù)源接口、數(shù)據(jù)倉庫、etl、ol

11、ap、數(shù)據(jù)挖掘、前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié)。s數(shù)據(jù)處理過程包含了從數(shù)據(jù)源系統(tǒng)到經(jīng)營分析系統(tǒng),以及經(jīng)營分析系統(tǒng)數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)抽取、轉(zhuǎn)換和加載。s數(shù)據(jù)質(zhì)量監(jiān)控自動獲取經(jīng)營分析系統(tǒng)各環(huán)節(jié)的數(shù)據(jù)質(zhì)量信息,結(jié)合元數(shù)據(jù)庫中的有關(guān)檢查規(guī)則,對數(shù)據(jù)質(zhì)量情況進行診斷,并及時向數(shù)據(jù)質(zhì)量監(jiān)控人員報告。s省公司中國移動通信集團各省移動通信有限責(zé)任公司。ssql腳本自動解析經(jīng)營分析系統(tǒng)的sql腳本中所含的數(shù)據(jù)處理元數(shù)據(jù)屬于技術(shù)元數(shù)據(jù)。sql腳本自動解析指通過對sql腳本的詞法、語法和語義分析,自動生成滿足cwm規(guī)范要求的數(shù)據(jù)處理元數(shù)據(jù)的功能。y業(yè)務(wù)元數(shù)據(jù)描述經(jīng)營分析系統(tǒng)中業(yè)務(wù)領(lǐng)域相關(guān)概念、關(guān)系、規(guī)則的數(shù)據(jù)。主要包括

12、業(yè)務(wù)術(shù)語、信息分類、指標(biāo)定義(指標(biāo)口徑)、業(yè)務(wù)規(guī)則等信息。y元模型元模型是構(gòu)建模型的公共語義基礎(chǔ),元模型必須達到一定的語義要求,以確保它能對問題領(lǐng)域的各個方面進行建模。必須遵循一系列已有的規(guī)則(抽象語言)來構(gòu)建元模型,以保證經(jīng)營分析系統(tǒng)中的各個軟件產(chǎn)品和工具對元模型具有相同的理解。對于所有希望用元模型解釋共享元數(shù)據(jù)的產(chǎn)品和工具來說,元模型的含義必須是一致的。y元數(shù)據(jù)元數(shù)據(jù)(meta data)泛指描述領(lǐng)域概念(domain concepts)、領(lǐng)域關(guān)系(domain roles)、領(lǐng)域規(guī)則(domain rules)的數(shù)據(jù),其中,領(lǐng)域語義(semantics)和知識(knowledge)也屬于

13、元數(shù)據(jù)的范疇。下列略縮語適用于本標(biāo)準(zhǔn):縮寫英文描述中文描述astabstract syntax tree抽象語法樹bossbusiness operation support system業(yè)務(wù)運營支撐系統(tǒng)odsoperational data store操作型數(shù)據(jù)存儲cwmcommon warehouse metamodel公共倉庫元模型etlextraction transformation loading抽取、轉(zhuǎn)換和加載olapon-line analysis process在線分析處理xmixml metadata interchangexml元數(shù)據(jù)交換bibusiness intell

14、igence商務(wù)智能restrepresentational state transfer表述性狀態(tài)轉(zhuǎn)移4. 經(jīng)營分析系統(tǒng)元數(shù)據(jù)概述本章概要介紹了經(jīng)營分析系統(tǒng)元數(shù)據(jù)的概念和管理要求,并介紹了經(jīng)營分析系統(tǒng)中元數(shù)據(jù)的基本模型。4.1. 經(jīng)營分析系統(tǒng)元數(shù)據(jù)的概念元數(shù)據(jù)(meta data)泛指描述領(lǐng)域概念(domain concepts)、領(lǐng)域關(guān)系(domain roles)和領(lǐng)域規(guī)則(domain rules)的數(shù)據(jù)。領(lǐng)域語義(semantics)和知識(knowledge)也屬于元數(shù)據(jù)的范疇。經(jīng)營分析系統(tǒng)元數(shù)據(jù)泛指描述中國移動經(jīng)營分析領(lǐng)域中的概念、關(guān)系和規(guī)則的數(shù)據(jù)。4.2. 經(jīng)營分析系統(tǒng)的元數(shù)據(jù)

15、管理4.2.1. 元數(shù)據(jù)管理的目標(biāo)為增強元數(shù)據(jù)管理模塊的基礎(chǔ)支撐能力,助力經(jīng)營分析系統(tǒng)提升數(shù)據(jù)質(zhì)量管控能力,ng2-bass3.0經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理的建設(shè)目標(biāo)是:l 建立經(jīng)營分析系統(tǒng)核心元模型,規(guī)范數(shù)據(jù)處理過程的結(jié)構(gòu)化描述根據(jù)經(jīng)營分析系統(tǒng)的技術(shù)特點和實際建設(shè)需要,對cwm標(biāo)準(zhǔn)定義的元模型進行擴充和細化,建立經(jīng)營分析系統(tǒng)核心元模型,細化對數(shù)據(jù)處理過程的結(jié)構(gòu)化描述,優(yōu)化sql腳本自動解析技術(shù),進一步提升數(shù)據(jù)處理過程元數(shù)據(jù)的自動獲取能力。l 實現(xiàn)兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通,促進重點接口數(shù)據(jù)處理過程規(guī)范化加強對省級經(jīng)營分析系統(tǒng)生成一級經(jīng)營分析系統(tǒng)重點接口的數(shù)據(jù)處理過程元數(shù)據(jù)的管理,基于互通元數(shù)據(jù)接

16、口標(biāo)準(zhǔn)實現(xiàn)重點接口元數(shù)據(jù)的下發(fā)和重點接口數(shù)據(jù)處理過程元數(shù)據(jù)的上傳,促進兩級系統(tǒng)對重點接口統(tǒng)一理解和數(shù)據(jù)處理過程規(guī)范化。l 為經(jīng)營分析系統(tǒng)基礎(chǔ)技術(shù)模塊提供支撐,擴充元數(shù)據(jù)服務(wù)接口元數(shù)據(jù)管理模塊為數(shù)據(jù)封裝和安全管理等經(jīng)營分析系統(tǒng)的基礎(chǔ)技術(shù)模塊提供支撐,存儲數(shù)據(jù)封裝、數(shù)據(jù)敏感度和客戶隱私信息等相關(guān)元數(shù)據(jù)內(nèi)容,擴充元數(shù)據(jù)對外服務(wù)接口內(nèi)容,向外部模塊或子系統(tǒng)提供元數(shù)據(jù)內(nèi)容和元數(shù)據(jù)分析服務(wù)。l 服務(wù)經(jīng)營分析系統(tǒng)數(shù)據(jù)質(zhì)量管理子系統(tǒng),為源系統(tǒng)聯(lián)動機制提供基礎(chǔ)支撐 基于元數(shù)據(jù)管理模塊統(tǒng)一管理指標(biāo)、接口單元和維表等關(guān)鍵數(shù)據(jù)對象,建立相關(guān)應(yīng)用和管理維護機制,提升關(guān)鍵數(shù)據(jù)對象的元數(shù)據(jù)質(zhì)量,為數(shù)據(jù)質(zhì)量管理子系統(tǒng)以及源系

17、統(tǒng)協(xié)同管理提供元數(shù)據(jù)內(nèi)容支撐和應(yīng)用功能支撐。4.2.2. 元數(shù)據(jù)管理的范疇中國移動經(jīng)營分析領(lǐng)域可宏觀劃分為三個子領(lǐng)域:技術(shù)子領(lǐng)域、業(yè)務(wù)子領(lǐng)域和管理子領(lǐng)域。相應(yīng)地,經(jīng)營分析領(lǐng)域的元數(shù)據(jù)可以劃分為三類元數(shù)據(jù):技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)。這三種元數(shù)據(jù)的具體描述如下:l 技術(shù)元數(shù)據(jù) 技術(shù)元數(shù)據(jù)是描述經(jīng)營分析系統(tǒng)中技術(shù)領(lǐng)域相關(guān)概念、關(guān)系和規(guī)則的數(shù)據(jù),主要包括對數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方面的特征描述,覆蓋經(jīng)營分析系統(tǒng)數(shù)據(jù)源接口、數(shù)據(jù)倉庫與數(shù)據(jù)集市存儲、etl、olap、數(shù)據(jù)封裝和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié);l 業(yè)務(wù)元數(shù)據(jù) 業(yè)務(wù)元數(shù)據(jù)是描述經(jīng)營分析系統(tǒng)中業(yè)務(wù)領(lǐng)域相關(guān)概念、關(guān)系和規(guī)則的數(shù)據(jù),主要包括業(yè)務(wù)術(shù)語

18、、信息分類、指標(biāo)定義和業(yè)務(wù)規(guī)則等信息;l 管理元數(shù)據(jù) 管理元數(shù)據(jù)是描述經(jīng)營分析系統(tǒng)中管理領(lǐng)域相關(guān)概念、關(guān)系和規(guī)則的數(shù)據(jù),主要包括人員角色、崗位職責(zé)和管理流程等信息。經(jīng)營分析系統(tǒng)元數(shù)據(jù)用于支持經(jīng)營分析系統(tǒng)的技術(shù)活動、管理活動和業(yè)務(wù)活動,其應(yīng)用覆蓋經(jīng)營分析系統(tǒng)技術(shù)、管理和業(yè)務(wù)等各個方面,如圖 41所示。圖 41經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理范疇4.3. 經(jīng)營分析系統(tǒng)元模型本節(jié)介紹經(jīng)營分析系統(tǒng)元模型的內(nèi)容,具體內(nèi)容參見附件一:中國移動省級ng2-bass技術(shù)規(guī)范元模型規(guī)范。4.3.1. 經(jīng)營分析系統(tǒng)元模型概述經(jīng)營分析系統(tǒng)元模型是經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理模塊建設(shè)的基礎(chǔ),用于規(guī)范元數(shù)據(jù)庫內(nèi)部對象、關(guān)系、規(guī)則和操作

19、等多方面的內(nèi)容,其主要包括四個層面:基礎(chǔ)層元模型、獲取層元模型、數(shù)據(jù)層元模型和訪問層元模型。此外,根據(jù)情況還可以包括可選元模型。經(jīng)營分析系統(tǒng)元模型需滿足以下要求:l 開放性 經(jīng)營分析系統(tǒng)元模型以cwm作為基礎(chǔ)模型,能夠與其他各類it系統(tǒng)進行互操作;l 適用性 經(jīng)營分析系統(tǒng)元模型支持在cwm基礎(chǔ)上進行擴展,從而描述經(jīng)營分析系統(tǒng)自身特有的內(nèi)容;l 標(biāo)準(zhǔn)性 面向兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通的需要,以cwm為基礎(chǔ)建立經(jīng)營分析系統(tǒng)核心元模型,形成關(guān)鍵元數(shù)據(jù)對象的統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)。經(jīng)營分析系統(tǒng)元模型組成關(guān)系示意如圖 42所示。圖 42 經(jīng)營分析系統(tǒng)元模型組成和關(guān)系以下分別介紹cwm、經(jīng)營分析系統(tǒng)元模型與cwm

20、的關(guān)系,以及經(jīng)營分析系統(tǒng)核心元模型。4.3.2. cwm概述公共倉庫元模型(cwm: common warehouse metamodel)是為數(shù)據(jù)倉庫及商業(yè)智能環(huán)境間方便地交換元數(shù)據(jù)而制定的一個標(biāo)準(zhǔn),其主要目的是在異構(gòu)環(huán)境下,實現(xiàn)不同的數(shù)據(jù)倉庫工具、平臺和元數(shù)據(jù)知識庫之間的元數(shù)據(jù)交換。cwm標(biāo)準(zhǔn)為數(shù)據(jù)倉庫和商業(yè)智能(bi)工具之間共享元數(shù)據(jù),制定了一整套關(guān)于語法和語義的規(guī)范,它主要包含以下四個方面的內(nèi)容: l cwm(metamodel):描述數(shù)據(jù)倉庫元數(shù)據(jù)的模型; l cwm xml:cwm元數(shù)據(jù)的xml表示; l cwm dtd:用來驗證cwm xml文檔;l cwm idl:dw/bi

21、共享元數(shù)據(jù)的應(yīng)用程序訪問接口(api)。4.3.2.1. 規(guī)范涉及的業(yè)界標(biāo)準(zhǔn)cwm標(biāo)準(zhǔn)是omg組織定義的數(shù)據(jù)倉庫和相關(guān)系統(tǒng)的國際元數(shù)據(jù)標(biāo)準(zhǔn),目的在于使數(shù)據(jù)倉庫和商業(yè)智能軟件的元數(shù)據(jù)在分布異構(gòu)的數(shù)據(jù)分析工具、數(shù)據(jù)倉庫平臺、元數(shù)據(jù)存儲等系統(tǒng)之間進行交換。目前,這個元數(shù)據(jù)標(biāo)準(zhǔn)得到了ibm、unisys、ncr、oracle和sas等廠商的支持。cwm1.1標(biāo)準(zhǔn)涉及以下幾個國際標(biāo)準(zhǔn):l xmi 1.1;l mof 1.4;l uml 2.0。uml用來描述元模型本身和一些對象元數(shù)據(jù),cwm中,和元數(shù)據(jù)相關(guān)的類定義是借助uml語言進行表述的。mof用來定義cwm的體系結(jié)構(gòu)和元模型語言的語義。xmi是xm

22、l形式的元數(shù)據(jù)接口定義語言,它是元數(shù)據(jù)管理體系中默認的元數(shù)據(jù)交換文件形式。4.3.2.2. cwm結(jié)構(gòu)cwm的體系結(jié)構(gòu)如圖 43所示,包括五個層次:對象模型層、基礎(chǔ)層、資源層、分析層和管理層。圖 43 cwm體系結(jié)構(gòu)l 對象模型層(object core):構(gòu)造和描述其它cwm包中的元模型類。 l 基礎(chǔ)層(foundation): 包括表示cwm概念和結(jié)構(gòu)的模型元素,這些模型元素又可被其他cwm包所共享,它由以下六個子包組成: Ø 業(yè)務(wù)信息(business information)包:包括表示模型元素業(yè)務(wù)信息的類與關(guān)聯(lián); Ø 數(shù)據(jù)類型(data types)包:包括表示建

23、模者可以用來創(chuàng)建所需數(shù)據(jù)類型的結(jié)構(gòu)的類與關(guān)聯(lián); Ø 表達式(expressions)包:包括表示表達式樹的類與關(guān)聯(lián); Ø 鍵和索引(keys and indexes)包:包括表示鍵和索引的類與關(guān)聯(lián); Ø 軟件部署(software deployment)包:包括軟件如何在數(shù)據(jù)倉庫中發(fā)布的類與關(guān)聯(lián); Ø 類型映射(type mapping)包:包括表示不同系統(tǒng)之間數(shù)據(jù)類型映射的類與關(guān)聯(lián)。 l 資源層(resource):用于描述數(shù)據(jù)資源的包,它包括以下四個子包: Ø 對象(object)包:包括表示其他類型數(shù)據(jù)資源的元數(shù)據(jù)的類與管理;Ø

24、 關(guān)系(relational)包:包括表示關(guān)系型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián);Ø 記錄(record)包:包括表示記錄型數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián); Ø 多維(multidimensional)包:包括表示多維數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián); Ø xml包:包括表示xml數(shù)據(jù)資源的元數(shù)據(jù)的類與關(guān)聯(lián)。 l 分析層(analysis):它由以下五個子包組成: Ø 轉(zhuǎn)換(transformation)包:包含表示數(shù)據(jù)抽取和轉(zhuǎn)換工具的元數(shù)據(jù)的類和關(guān)聯(lián); Ø olap包:包含表示olap工具的元數(shù)據(jù)的類與關(guān)聯(lián); Ø 數(shù)據(jù)挖掘(data mining)

25、包:包含表示數(shù)據(jù)挖掘工具的元數(shù)據(jù)的類與關(guān)聯(lián); Ø 信息可視化(information visualization)包:包含表示信息可視化工具的元數(shù)據(jù)的類與關(guān)聯(lián); Ø 業(yè)務(wù)術(shù)語(business nomenclature)包:包括表示分類業(yè)務(wù)的元數(shù)據(jù)的類與關(guān)聯(lián)。 l 管理層(management):用于描述數(shù)據(jù)倉庫管理的包,它包括以下兩個子包: Ø 倉庫過程(warehouse process)包:包括表示倉庫過程的元數(shù)據(jù)的類與關(guān)聯(lián); Ø 倉庫操作(warehouse operation)包:包括表示倉庫操作結(jié)果的元數(shù)據(jù)的類與關(guān)聯(lián)。cwm作為數(shù)據(jù)倉庫領(lǐng)域的

26、元模型標(biāo)準(zhǔn),在元數(shù)據(jù)的集中管理、元數(shù)據(jù)互操作和元數(shù)據(jù)交換方面發(fā)揮重要作用。但是cwm作為一個國際性、廠商無關(guān)、平臺無關(guān)的規(guī)范,只提供一個公共的元模型框架,將數(shù)據(jù)倉庫領(lǐng)域的公共特性納入元模型中。cwm對于物理實現(xiàn)精確定義的細化程度不足,而且對業(yè)務(wù)和管理信息的描述無法滿足經(jīng)營分析系統(tǒng)實際建設(shè)需要。因此,經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理模塊需要對cwm元模型進行擴展,形成精確的物理實現(xiàn)語義描述能力和業(yè)務(wù)及管理信息的描述能力。4.3.3. 經(jīng)營分析系統(tǒng)元模型與cwm的關(guān)系經(jīng)營分析系統(tǒng)元模型以cwm為基礎(chǔ),可以面向省級經(jīng)營分析系統(tǒng)的建設(shè)和運維管理需要進行擴展。表 4-1顯示了經(jīng)營分析系統(tǒng)元模型與cwm中的包的對應(yīng)

27、關(guān)系。表 4-1 經(jīng)營分析系統(tǒng)元模型與cwm的對應(yīng)關(guān)系經(jīng)營分析系統(tǒng)元模型cwm的包基礎(chǔ)層元模型對象模型包,業(yè)務(wù)信息包,數(shù)據(jù)類型包,表達式包,鍵和索引包,類型映射包,軟件部署包獲取層元模型轉(zhuǎn)換包數(shù)據(jù)層元模型關(guān)系模型包,倉庫過程包,倉庫操作包訪問層元模型olap模型包,數(shù)據(jù)挖掘模型包,信息可視化包可選元模型業(yè)務(wù)術(shù)語包,xml包,記錄包,多維包,對象數(shù)據(jù)庫包4.3.4. 經(jīng)營分析系統(tǒng)核心元模型概述經(jīng)營分析系統(tǒng)核心元模型以cwm元模型為基礎(chǔ)擴展而成,是面向兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通的實際需要對關(guān)鍵元數(shù)據(jù)對象進行精確定義的元模型規(guī)范。經(jīng)營分析系統(tǒng)核心元模型是經(jīng)營分析系統(tǒng)元模型的子集,在經(jīng)營分析系統(tǒng)元模型

28、中選擇關(guān)鍵元數(shù)據(jù)對象,具體包括:數(shù)據(jù)倉庫、數(shù)據(jù)處理過程、接口單元和維度。對于數(shù)據(jù)處理過程類元模型,基于cwm規(guī)范以派生的方法進行擴展,對于其他類元模型,基于cwm規(guī)范進行屬性精簡和調(diào)整。經(jīng)營分析系統(tǒng)核心元模型的主要內(nèi)容如表 4-2所示。表 4-2 經(jīng)營分析系統(tǒng)核心元模型列表元模型層次元模型主題元模型對象數(shù)據(jù)層元模型數(shù)據(jù)倉庫catalog(目錄)schema(模式)table(庫表)view(視圖)column(字段)獲取層元模型數(shù)據(jù)處理過程transformationtask(etl任務(wù))transformationmap(sql腳本)classifiermap(轉(zhuǎn)換處理)relational

29、operator(關(guān)系型操作)relationalprojection(投影操作)relationaljoin(連接操作)relationalcombination(交并差集合操作)relationalrename(改表名操作)relationalselection(選擇操作)relationalgroupby(分組操作)relationalorderby(排序操作)featuremap(字段級映射)可選元模型接口單元interfaceunit(接口單元)field(接口單元字段)可選元模型維度dimension(維度)dimensionedobject(維度成員)5. 元數(shù)據(jù)管理體系結(jié)構(gòu)本章

30、首先從功能結(jié)構(gòu)和技術(shù)結(jié)構(gòu)兩個方面簡單介紹了元數(shù)據(jù)管理模塊的體系結(jié)構(gòu),然后分別介紹了各功能層次,以及各層次包含的具體功能。5.1. 功能結(jié)構(gòu)元數(shù)據(jù)管理模塊功能結(jié)構(gòu)如圖 51所示。圖 51 經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理功能結(jié)構(gòu)圖元數(shù)據(jù)管理模塊體系結(jié)構(gòu)主要有以下四層:l 元數(shù)據(jù)獲取層元數(shù)據(jù)獲取層位于整個體系架構(gòu)的最底層,元數(shù)據(jù)獲取層抽象概括了元數(shù)據(jù)獲取的各種途徑。業(yè)務(wù)和管理元數(shù)據(jù)通常以手工方式獲取,技術(shù)元數(shù)據(jù)覆蓋數(shù)據(jù)源系統(tǒng)以及經(jīng)營分析系統(tǒng)數(shù)據(jù)的整個生命周期,要求以自動方式獲取,如數(shù)據(jù)字典和數(shù)據(jù)模型等。l 元數(shù)據(jù)存儲層存儲層定義了元數(shù)據(jù)存儲所遵循的元模型,規(guī)范從獲取層得到的各類元數(shù)據(jù)的屬性要求和存儲格式要求

31、,包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。經(jīng)營分析系統(tǒng)核心元模型對經(jīng)營分析系統(tǒng)的關(guān)鍵數(shù)據(jù)對象進行模型定義和規(guī)范。l 元數(shù)據(jù)功能層元數(shù)據(jù)功能層為前端元數(shù)據(jù)應(yīng)用提供了基本的功能支撐,主要包括元數(shù)據(jù)基本功能、元數(shù)據(jù)分析功能、元數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)服務(wù)接口和元數(shù)據(jù)權(quán)限管理五個部分。其中,元數(shù)據(jù)基本功能包括元數(shù)據(jù)維護、元數(shù)據(jù)查詢、變更管理、元數(shù)據(jù)統(tǒng)計和元數(shù)據(jù)使用情況統(tǒng)計;元數(shù)據(jù)分析功能包括血緣分析、影響分析、數(shù)據(jù)地圖展現(xiàn)、實體關(guān)聯(lián)分析、實體差異分析、主機拓樸分析和指標(biāo)一致性分析;元數(shù)據(jù)質(zhì)量管理包括一致性檢查、關(guān)系健全性檢查和元數(shù)據(jù)屬性檢查;元數(shù)據(jù)服務(wù)接口包括數(shù)據(jù)封裝元數(shù)據(jù)服務(wù)接口和數(shù)據(jù)地圖訪問服務(wù)接口。

32、l 元數(shù)據(jù)應(yīng)用層在元數(shù)據(jù)管理模塊功能層的支持下,元數(shù)據(jù)應(yīng)用層通過調(diào)用功能層的功能,對元數(shù)據(jù)管理的實際問題提供應(yīng)用解決方案,主要包括指標(biāo)庫管理、業(yè)務(wù)術(shù)語自助學(xué)習(xí)、維表庫管理、接口管理、兩級經(jīng)營分析系統(tǒng)元數(shù)據(jù)互通、輔助應(yīng)用優(yōu)化、輔助安全管理、基于元數(shù)據(jù)的開發(fā)管理和數(shù)據(jù)質(zhì)量管理等。5.2. 技術(shù)結(jié)構(gòu)元數(shù)據(jù)管理模塊的技術(shù)結(jié)構(gòu)對內(nèi)要求具有良好擴展性,以及能力公開的特性。對外要求提供方便的集成方式,其前端界面需要集成到經(jīng)營分析門戶中。元數(shù)據(jù)管理模塊的技術(shù)結(jié)構(gòu)如圖 52所示。圖 52 經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理模塊技術(shù)結(jié)構(gòu)圖在圖 52中,元數(shù)據(jù)、元模型和相關(guān)配置信息統(tǒng)一存儲在關(guān)系數(shù)據(jù)庫中。其中的元數(shù)據(jù)信息通過數(shù)

33、據(jù)對象映射,轉(zhuǎn)換成滿足cwm規(guī)范的數(shù)據(jù)對象,為元數(shù)據(jù)獲取組件和功能組件提供面向?qū)ο蟮臄?shù)據(jù)存取服務(wù)。元數(shù)據(jù)獲取的數(shù)據(jù)源包括數(shù)據(jù)處理過程、er邏輯模型、olap對象和數(shù)據(jù)庫對象等。元數(shù)據(jù)獲取組件為元數(shù)據(jù)自動獲取提供了一個可擴展的框架。在該框架中,可以針對每種不同的數(shù)據(jù)源,提供專用的元數(shù)據(jù)獲取適配器。例如,對于數(shù)據(jù)處理元數(shù)據(jù),可以提供sql腳本解析器。元數(shù)據(jù)功能組件包括元數(shù)據(jù)的管理和應(yīng)用的基礎(chǔ)功能組件。例如對血緣分析、影響分析、元數(shù)據(jù)檢索和差異比較等功能。元數(shù)據(jù)功能組件為元數(shù)據(jù)應(yīng)用所調(diào)用,同時通過rest風(fēng)格的web服務(wù)實現(xiàn)元數(shù)據(jù)訪問接口的封裝,對外能力公開元數(shù)據(jù)訪問能力。元數(shù)據(jù)應(yīng)用可以通過port

34、let和iframe等方式集成到經(jīng)營分析門戶中。此外,元數(shù)據(jù)管理模塊還要包括調(diào)度控制、流程控制和權(quán)限管理等基礎(chǔ)控制功能,為元數(shù)據(jù)應(yīng)用組件、功能組件和獲取組件的有機配合提供支持。例如,對元數(shù)據(jù)變更流程的支持和對元數(shù)據(jù)定時自動獲取的支持。6. 元數(shù)據(jù)管理功能要求本章說明元數(shù)據(jù)管理模塊的獲取層、存儲層和功能層的各項功能要求。6.1. 元數(shù)據(jù)獲取本節(jié)針對經(jīng)營分析系統(tǒng)元數(shù)據(jù)管理范疇中所涉及的各類元數(shù)據(jù),明確其獲取方式、獲取時效性、準(zhǔn)確性、粒度和相關(guān)管理功能支持等方面的要求,確保以各種獲取方式進入存儲庫的元數(shù)據(jù)能夠滿足元數(shù)據(jù)規(guī)范化管理的需要。6.1.1. 元數(shù)據(jù)獲取方式經(jīng)營分析系統(tǒng)的元數(shù)據(jù)獲取方式劃分為兩

35、類:l 自動獲取 在經(jīng)營分析系統(tǒng)中有部分實體能提供專用的或者標(biāo)準(zhǔn)的元數(shù)據(jù)獲取接口,例如數(shù)據(jù)倉庫和etl工具等,元數(shù)據(jù)管理模塊可以利用這些接口自動抽取元數(shù)據(jù)。對于數(shù)據(jù)處理過程中的sql腳本和tcl腳本等數(shù)據(jù)處理過程腳本程序,元數(shù)據(jù)管理模塊可以通過編譯技術(shù)自動獲取數(shù)據(jù)處理元數(shù)據(jù);l 手工獲取 對于無法通過獲取接口或者編譯技術(shù)進行自動獲取的元數(shù)據(jù),需要通過手工整理的方式進行處理。元數(shù)據(jù)自動獲取和手工獲取兩種方式都可以將元數(shù)據(jù)寫入到xmi或excel文件,再將這些文件提交到元數(shù)據(jù)變更管理流程中;也可以直接將元數(shù)據(jù)變更內(nèi)容提交到元數(shù)據(jù)變更管理流程中,示例如圖 61所示。元數(shù)據(jù)變更管理流程的詳細內(nèi)容參見第

36、8章。圖 61 元數(shù)據(jù)獲取方式示例元數(shù)據(jù)管理模塊需要針對各類元數(shù)據(jù)提供相應(yīng)的元數(shù)據(jù)導(dǎo)入文件模板。在導(dǎo)入文件模板中規(guī)定元數(shù)據(jù)類型、屬性和關(guān)系等信息的填寫格式,以及新增、修改和刪除操作的標(biāo)記方法。元數(shù)據(jù)管理模塊應(yīng)支持xmi文件和excel文件兩種導(dǎo)入文件模板。采用手工獲取方式獲取的元數(shù)據(jù),元數(shù)據(jù)模塊需要提供根據(jù)各自元數(shù)據(jù)的特征提供相應(yīng)的元數(shù)據(jù)手工錄入功能。對于采用自動獲取方式獲取的元數(shù)據(jù),元數(shù)據(jù)管理模塊需要提供相應(yīng)的自動獲取功能。這些自動獲取功能可以劃分為如下幾類:l 通過遵守cwm規(guī)范的xmi接口自動獲取元數(shù)據(jù)對于datastage和powercenter等etl工具,ibm db2 wareh

37、ouse manager,oracle warehouse builder repository等數(shù)據(jù)倉庫管理工具,oracle olap server等olap工具和其它兼容cwm的前端展現(xiàn)工具可以通過xmi接口自動獲取元數(shù)據(jù)。l 通過sql解析和tcl腳本解析等腳本解析方法自動獲取元數(shù)據(jù)對于datastage中的源定義sql語句,essbase中的rule文件映射sql語句和數(shù)據(jù)處理運行日志中的sql語句,都可以通過sql自動解析的方式獲取元數(shù)據(jù)。而tcl腳本程序可以通過tcl腳本自動解析的方式獲取元數(shù)據(jù)。l 通過數(shù)據(jù)庫訪問接口(如odbc/jdbc等)自動獲取元數(shù)據(jù)對于數(shù)據(jù)庫對象,例如o

38、racle等dbms中的數(shù)據(jù)庫表、視圖、字段和存儲過程等,可以通過odbc/jdbc等數(shù)據(jù)庫訪問接口自動獲取元數(shù)據(jù)。l 通過其他工具專業(yè)api接口自動獲取元數(shù)據(jù)對于erwin、powerdesigner等建模工具,business object reporter等前端展現(xiàn)工具,essbase/ibm db2 olap server、db2 cube views、cognos和sas olap server等olap工具,可以使用該工具特定的元數(shù)據(jù)訪問接口自動獲取元數(shù)據(jù)。6.1.2. 元數(shù)據(jù)自動獲取管理功能元數(shù)據(jù)自動獲取的數(shù)據(jù)來源分布在數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)處理過程、數(shù)據(jù)倉庫、數(shù)據(jù)集市、olap工具和

39、前端展示工具等實體中。為了加強對元數(shù)據(jù)自動獲取的管理,元數(shù)據(jù)管理模塊需要提供元數(shù)據(jù)自動獲取管理的功能支持。元數(shù)據(jù)自動獲取管理應(yīng)涵蓋五個方面的功能:l 元數(shù)據(jù)自動獲取數(shù)據(jù)源管理要求元數(shù)據(jù)管理模塊對元數(shù)據(jù)獲取數(shù)據(jù)源以及這些數(shù)據(jù)源之間的關(guān)系進行集中登記管理,形成自動獲取數(shù)據(jù)源的全局視圖,以促進元數(shù)據(jù)自動獲取日常管理的規(guī)范化。l 元數(shù)據(jù)獲取能力管理元數(shù)據(jù)管理模塊需要建立元數(shù)據(jù)獲取能力的擴展框架。在該框架下,可以針對經(jīng)營分析系統(tǒng)中各種元數(shù)據(jù)獲取數(shù)據(jù)源的特點,通過增加元數(shù)據(jù)獲取適配器的方式,擴展相應(yīng)的元數(shù)據(jù)自動獲取能力。l 元數(shù)據(jù)自動獲取調(diào)度管理要求元數(shù)據(jù)管理模塊對元數(shù)據(jù)的自動獲取提供持續(xù)穩(wěn)定的調(diào)度支持,

40、能夠按預(yù)設(shè)的調(diào)度策略觸發(fā)相應(yīng)的元數(shù)據(jù)自動獲取過程。要求提供元數(shù)據(jù)自動獲取調(diào)度策略的統(tǒng)一配置管理功能,以滿足元數(shù)據(jù)自動獲取在時效性和獲取時機等方面的需要。調(diào)度策略應(yīng)支持時間周期觸發(fā)和事件觸發(fā)兩種方式。例如,在每周星期一凌晨00:00到01:00之間觸發(fā)數(shù)據(jù)倉庫元數(shù)據(jù)的自動獲取過程,或者在數(shù)據(jù)處理程序更新后12小時內(nèi)觸發(fā)相應(yīng)的映射關(guān)系元數(shù)據(jù)自動獲取過程。l 元數(shù)據(jù)生成和入庫策略管理元數(shù)據(jù)的自動生成和入庫需要滿足以下要求:Ø 元數(shù)據(jù)命名策略應(yīng)確保元數(shù)據(jù)命名的確定性和唯一性;Ø 元數(shù)據(jù)組織方式應(yīng)確保元數(shù)據(jù)關(guān)聯(lián)關(guān)系和存放路徑的合理性;Ø 元數(shù)據(jù)入庫策略應(yīng)確保自動生成的元數(shù)據(jù)

41、與存儲庫中元數(shù)據(jù)之間不會出現(xiàn)錯誤的覆蓋和冗余。要求元數(shù)據(jù)管理模塊提供元數(shù)據(jù)命名策略、組織方式、增量入庫和全量入庫策略的配置管理支持。l 元數(shù)據(jù)自動處理過程和相關(guān)日志的管理元數(shù)據(jù)自動處理過程和日志管理功能需要滿足以下要求:Ø 能夠為各種元數(shù)據(jù)自動獲取數(shù)據(jù)源配置適應(yīng)的處理流程和環(huán)節(jié);Ø 各個環(huán)節(jié)的處理關(guān)鍵信息和異常信息需要寫入元數(shù)據(jù)獲取日志。要求提供日志查閱和審計功能,并對異常信息提供告警功能。6.2. sql腳本自動解析sql腳本元數(shù)據(jù)用于結(jié)構(gòu)化描述etl和數(shù)據(jù)處理過程腳本程序的數(shù)據(jù)流語義信息,是經(jīng)營分析系統(tǒng)技術(shù)元數(shù)據(jù)的一部分,為構(gòu)建經(jīng)營分析系統(tǒng)數(shù)據(jù)地圖、形成元數(shù)據(jù)輔助分析能

42、力提供重要支撐。建設(shè)sql腳本自動解析功能的目的,是為了確保sql腳本元數(shù)據(jù)的及時更新,降低管理成本,提高管理效率,為各種輔助分析應(yīng)用提供高質(zhì)量的元數(shù)據(jù)。sql腳本自動解析獲取元數(shù)據(jù)的過程可以分為數(shù)據(jù)處理日志生成、運行日志獲取、sql詞法語法分析、sql語義分析生成元數(shù)據(jù)和sql腳本元數(shù)據(jù)入庫五個環(huán)節(jié),如圖 62的綠色虛線框所示。通過這五個環(huán)節(jié)的自動處理,將腳本程序的變化及時傳遞到應(yīng)用端,使應(yīng)用分析的結(jié)果能夠反映etl和數(shù)據(jù)處理過程的最新情況。圖 62 sql腳本自動解析獲取元數(shù)據(jù)過程其中,輸出運行日志環(huán)節(jié)要求etl和數(shù)據(jù)處理過程在每次運行時,按指定方式輸出運行日志,將提交執(zhí)行的sql腳本以及

43、必要的上下文信息寫入運行日志中。該運行日志起刪繁就簡的作用,將腳本程序中的數(shù)據(jù)流語義信息,通過sql腳本及其上下文信息記錄下來,傳遞到下一環(huán)節(jié),而腳本程序中的無關(guān)信息則屏蔽在該環(huán)節(jié)之外,簡化后續(xù)環(huán)節(jié)的處理。運行日志獲取環(huán)節(jié)定期掃描etl和數(shù)據(jù)處理過程所輸出的日志,提取未經(jīng)處理的運行日志并觸發(fā)解析處理過程。sql詞法語法分析環(huán)節(jié)利用編譯技術(shù)對運行日志中的腳本進行詞法語法分析,生成抽象語法樹(ast)。其處理過程可分為詞法分析和語法分析兩個步驟。在第一個步驟,解析程序根據(jù)預(yù)先定義的sql詞法文法,對sql腳本的字符流進行分詞處理,輸出sql關(guān)鍵字、常量、變量、操作符等分詞序列(token)。在第二

44、個步驟,解析程序根據(jù)預(yù)先定義的sql語法文法,對分詞序列進行語法分析,建立層次化的抽象語法樹。在sql語義分析生成元數(shù)據(jù)環(huán)節(jié),該環(huán)節(jié)對各sql腳本的抽象語法樹進行語義分析,并結(jié)合sql腳本之間上下文相關(guān)信息的處理,實現(xiàn)sql腳本語義的元數(shù)據(jù)結(jié)構(gòu)化描述。這本質(zhì)上是一種語義翻譯,將sql文法表述的語義轉(zhuǎn)換為元模型表述的語義。在這個過程中,sql腳本語義所包含的關(guān)系代數(shù)操作,如連接、選擇和投影等,分別抽象為一個元數(shù)據(jù)對象,并建立這些對象之間的數(shù)據(jù)流關(guān)系。相關(guān)元模型說明參見附件一:中國移動省級ng2-bass技術(shù)規(guī)范元模型規(guī)范v3.0。在sql腳本元數(shù)據(jù)入庫環(huán)節(jié),將自動解析所獲取的sql腳本元數(shù)據(jù)寫入

45、元數(shù)據(jù)存儲庫中。這里需要考慮全量更新與增量更新的問題,確保所獲取的元數(shù)據(jù)能夠與存儲庫中已經(jīng)存在的元數(shù)據(jù)融合起來,形成一個整體。6.2.1. 運行日志的輸出要求在經(jīng)營分析系統(tǒng)中,所有需要通過sql腳本自動解析功能獲取元數(shù)據(jù)的數(shù)據(jù)處理過程,包括數(shù)據(jù)庫存儲過程、數(shù)據(jù)庫函數(shù)、shell腳本程序、proc腳本程序和java程序等,都需要將提交到數(shù)據(jù)庫執(zhí)行的所有sql語句按規(guī)定格式寫入數(shù)據(jù)處理日志。經(jīng)營分析系統(tǒng)可以采用如下兩種方式存儲數(shù)據(jù)處理日志:l 日志文件方式,以文本文件存放日志內(nèi)容;l 日志表方式,以數(shù)據(jù)庫表存放日志內(nèi)容。數(shù)據(jù)處理日志需要確保足夠長的存儲周期,以滿足sql腳本自動解析的處理需要。6.

46、2.1.1. 日志內(nèi)容要求在經(jīng)營分析系統(tǒng)中,要求腳本程序在運行時輸出到日志的內(nèi)容包括:l 提交到數(shù)據(jù)庫執(zhí)行的sql腳本l 創(chuàng)建數(shù)據(jù)庫鏈接的相關(guān)參數(shù)l 文件導(dǎo)入導(dǎo)出操作(import/export/load/unload)這三部分內(nèi)容必須在日志中以規(guī)定方式標(biāo)記其在程序中的執(zhí)行順序。下面分別說明這三部分內(nèi)容的詳細要求。6.2.1.1.1. sql腳本要求腳本程序中所有提交到數(shù)據(jù)庫執(zhí)行的sql腳本都要完整寫入日志中。這些sql腳本應(yīng)該是數(shù)據(jù)庫服務(wù)器可以直接執(zhí)行的,不能包含腳本程序變量等非數(shù)據(jù)庫語法單元(存儲過程除外)。圖 63是一個tcl腳本程序樣本,其中的sql腳本包含有很多腳本程序變量,如$mo

47、nth、$lastday、$strtab_ods_dcolorringnew_ymd等。腳本程序必須先將所有這些變量置換成具體的變量值,才能將sql腳本輸出到日志中,否則sql詞法語法分析階段將該sql腳本識別為存在語法錯誤。圖 63 包含腳本程序變量的sql腳本示例而存儲過程寫入日志中的sql腳本則可以包含存儲過程變量。圖 64是一個存儲過程樣本,其中的sql腳本包含一些存儲過程變量,例如:dt_dealdate、:step、:activity_count等。該sql腳本可以直接寫入日志中,不需要事先將這些變量置換為變量值。圖 64 包含存儲過程變量的sql腳本6.2.1.1.2. 數(shù)據(jù)庫連

48、接如果在腳本程序中存在多次創(chuàng)建數(shù)據(jù)庫連接,分別向不同schema提交sql腳本的情況,則必須將創(chuàng)建連接的信息(包括數(shù)據(jù)庫服務(wù)器、用戶名等)按規(guī)定格式寫入日志中,以便sql解析器據(jù)此確定后續(xù)執(zhí)行的sql腳本的缺省schema是什么。6.2.1.1.3. 文件導(dǎo)入導(dǎo)出操作如果腳本程序中存在以export/import/unload/load命令執(zhí)行的文件導(dǎo)入導(dǎo)出操作,則必須將這些命令完整輸出到日志中。與sql腳本類似,在輸出日志前,應(yīng)該首先將這些命令中的腳本程序變量置換成變量值。一個shell腳本程序示例圖 65,其中大量采用export命令將數(shù)據(jù)從庫表導(dǎo)出到文件中。這些export命令,包括se

49、lect部分,需要完整輸出到日志中。圖 65 文件導(dǎo)入導(dǎo)出操作樣本6.2.1.1.4. 游標(biāo)操作經(jīng)營分析系統(tǒng)中游標(biāo)操作在所有數(shù)據(jù)操作中所占比例不超過1%,這類操作有大量的數(shù)據(jù)處理邏輯和相關(guān)的上下文信息不包含在sql腳本中,而且這些信息很難在日志中描述。由于這類操作所占比例很小,而且目前所找到的樣本都是用于對一些參數(shù)進行操作,未發(fā)現(xiàn)使用游標(biāo)對業(yè)務(wù)事實數(shù)據(jù)進行操作的情況?;诤喕罩据敵龅目紤],可以忽略游標(biāo)操作的相關(guān)信息,不要求將游標(biāo)操作的內(nèi)容寫入日志中。但是,創(chuàng)建游標(biāo)的select語句、將游標(biāo)fetch出來的數(shù)據(jù)經(jīng)過處理后寫入數(shù)據(jù)庫的insert語句都需要作為其中一類sql腳本寫入日志中。6.2

50、.1.2. 日志格式要求運行日志可以采用日志文件或者日志表兩種存儲方式。其中日志文件方式采用文本文件記錄日志內(nèi)容,而日志表方式采用數(shù)據(jù)庫表記錄日志內(nèi)容。下面分別說明日志文件和日志表的格式要求。6.2.1.2.1. 日志文件格式每個腳本程序在中運行日志區(qū)中都有一個固定的日志文件輸出目錄。不同腳本程序可以共用一個日志文件輸出目錄。腳本程序每次運行時,都需要在該目錄下輸出一個獨立的日志文件。這些日志文件應(yīng)具有明確的文件命名規(guī)則,以便sql解析器確定運行日志與腳本程序的對應(yīng)關(guān)系。寫入日志文件中的文本所采用的字符集應(yīng)該與utf-8和gbk兼容。日志文件的內(nèi)容劃分文件頭、文件體和文件結(jié)束標(biāo)志三個部分。這三

51、個部分必須按先后順序依次寫入日志文件。如圖 66所示。圖 66 日志文件內(nèi)容6.2.1.2.1.1. 文件頭格式要求文件頭必須依次寫入如下內(nèi)容:l 腳本程序名格式:proc腳本程序名/proc其中的腳本程序名是指腳本程序的文件名。為避免在不同路徑下出現(xiàn)重名腳本程序名的情況,這里的文件名應(yīng)包括文件路徑。l 腳本程序版本號格式:version腳本程序版本號/version其中的腳本程序版本號是一個字符串,格式不限。l 腳本程序最近修改時間格式:modify date腳本程序最近修改時間/modify date其中的腳本程序最近修改時間是指腳本程序文件最后一次更新的時間,可以采用操作系統(tǒng)中記錄的文件

52、修改時間。時間格式:yyyy-mm-dd hh24:mi:ssl 腳本程序本次運行的輸入?yún)?shù)格式:para參數(shù)描述串/para其中的參數(shù)描述串用于記錄腳本程序本次運行時,從外部傳進來的參數(shù)值。參數(shù)描述串的格式:“參數(shù)名1=參數(shù)值1;參數(shù)名2=參數(shù)值2;”。l 腳本程序本次運行的啟動時間格式:begin time腳本程序本次運行的啟動時間/begin time時間格式:yyyy-mm-dd hh24:mi:ss6.2.1.2.1.2. 文件體格式要求文件體記錄腳本程序運行時提交到數(shù)據(jù)庫執(zhí)行的所有sql腳本、創(chuàng)建數(shù)據(jù)庫連接的相關(guān)參數(shù)以及文件導(dǎo)入導(dǎo)出操作命令。這些內(nèi)容必須按腳本程序運行的先后順序?qū)懭?/p>

53、文件體中。l 提交到數(shù)據(jù)庫執(zhí)行的sql腳本格式:sqlsql腳本/sql其中sql腳本是指一條可執(zhí)行的sql語句,具體要求參見第6.2.1.1.1節(jié)。sql腳本的起止標(biāo)志sql和/sql必須分別獨占一行。而sql腳本可以占一行或者多行。l 創(chuàng)建數(shù)據(jù)庫鏈接的相關(guān)參數(shù)如果在腳本程序中存在建立數(shù)據(jù)庫連接的操作,則相關(guān)的數(shù)據(jù)庫連接參數(shù)(密碼除外)需要以連接串的方式寫入日志文件。格式:conn 數(shù)據(jù)庫連接串 /conn其中的數(shù)據(jù)庫連接串應(yīng)采用如下格式的字符串進行記錄:“參數(shù)名1=參數(shù)值1參數(shù)名2=參數(shù)值2;”。這些參數(shù)應(yīng)包括:數(shù)據(jù)庫類型、數(shù)據(jù)庫所在主機、數(shù)據(jù)庫實例名和連接用戶等內(nèi)容。l 文件導(dǎo)入導(dǎo)出操作

54、(import/export/load/unload)格式:sql文件導(dǎo)入導(dǎo)出操作命令/sql其中的文件導(dǎo)入導(dǎo)出操作命令是指一條import/export/load/unload命令的完整文本,具體要求參加第6.2.1.1.3節(jié)。6.2.1.2.1.3. 文件結(jié)束標(biāo)志文件結(jié)束標(biāo)志用于sql解析器確認一個日志文件的完整性,避免日志文件在輸出過程還沒完全結(jié)束時就被sql解析器提取出來處理。文件結(jié)束標(biāo)志格式:end time 腳本程序本次運行的結(jié)束時間/end time時間格式:yyyy-mm-dd hh24:mi:ss6.2.1.2.1.4. 日志文件樣例符合日志格式的日志文件樣例示意,如圖 67

55、所示。圖 67所示。圖 67所示。圖 67所示。圖 67 日志文件樣例示意6.2.1.2.2. 日志表格式如果在運行日志區(qū)中采用數(shù)據(jù)庫表來存儲運行日志的內(nèi)容,則這組日志表的表結(jié)構(gòu)和數(shù)據(jù)格式必須遵守日志表的格式要求。日志表由如下兩張數(shù)據(jù)庫表組成:運行日志總體表:sqlparser_log_general運行日志明細表:sqlparser_log_detail日志表結(jié)構(gòu)如圖 68所示。圖 68 日志表結(jié)構(gòu)每個腳本程序的每次運行輸出一個運行日志。運行日志總體表中的每條記錄對應(yīng)一個運行日志,而運行日志的詳細信息寫入運行日志明細表中。下面詳細說明日志表的填寫要求。6.2.1.2.2.1. 運行日志總體表填寫要求表 6-1列出運行日志總體表的填寫要求:表 6-1運行日志總體表填寫說明要求字段名字段內(nèi)容數(shù)據(jù)類型說明log_sn運行日志序號number關(guān)鍵字,每個運行日志對應(yīng)一個唯一的運行日志序號。該序號按運行日志生成的先后順序遞增。prog_na

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論