大數據治理體系_第1頁
大數據治理體系_第2頁
大數據治理體系_第3頁
大數據治理體系_第4頁
大數據治理體系_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據治理體系目 錄HYPERLINK1. 范圍 1HYPERLINK2. 規(guī)范性引用文件 1HYPERLINK3. 術語、定義和縮略語 5HYPERLINK4. 總體說明 8HYPERLINK4.1. 概述 8HYPERLINK4.2. 目標 9HYPERLINK4.3. 原則 9HYPERLINK5. 數據治理體系 10HYPERLINK5.1. 總體框架 10HYPERLINK5.2. 組織架構 11HYPERLINK 組織構成 11HYPERLINK 角色職責 12HYPERLINK5.3. 系統架構 12HYPERLINK 系統功能框架 12HYPERLINK 系統模塊流程 14HYPERLINK5.4. 系統邊界 15HYPERLINK 與企業(yè)級省大數據平臺關系 16HYPERLINK 與對外能力開放平臺關系 16HYPERLINK 與平臺運維系統關系 16HYPERLINK6. 數據治理核心模塊 17HYPERLINK6.1. 數據標準管理 17HYPERLINK 背景 17HYPERLINK 18HYPERLINK 目標及原則 19HYPERLINK 業(yè)務分類和定義 19HYPERLINK 技術功能要求 23HYPERLINK 本期建設范圍及內容 26HYPERLINK 實施要求 27HYPERLINK6.2. 元數據管理 27HYPERLINK 背景和定義 27HYPERLINK 元數據運營模式 29HYPERLINK 元模型標準 29HYPERLINK 元數據運維 33HYPERLINK 本期重點建設內容 34HYPERLINK6.3. 數據質量管理 34HYPERLINK 與傳統經營分析系統的區(qū)別 34HYPERLINK 范圍和原則 35HYPERLINK 與其它功能模塊的關系 36HYPERLINK 本期數據質量功能需求 38HYPERLINK 本期數據質量運維要求 39HYPERLINK6.4. 數據資產管理 40HYPERLINK 數據資產概述 40HYPERLINK 數據資產范圍 41HYPERLINK 與其它功能模塊的關系 42HYPERLINK 本期數據資產功能需求 42HYPERLINK 本期建設內容 45HYPERLINK6.5. 數據安全管理 45HYPERLINK 數據安全概述 45HYPERLINK 建設原則 46HYPERLINK 建設內容 46HYPERLINK 邊界關系 46HYPERLINK 技術功能 47HYPERLINK 管理要求 48HYPERLINK7. 數據治理場景 52HYPERLINK7.1. 背景描述 52HYPERLINK7.2. 場景一:銀行偽卡交易判別 52HYPERLINK 背景介紹 52HYPERLINK 場景描述 53HYPERLINK7.3. 場景二:銀行手機貸業(yè)務 54HYPERLINK 背景介紹 54HYPERLINK 場景描述 54HYPERLINK8. 附錄 55HYPERLINK附錄一:數據標準框架 55HYPERLINK附錄二:數據標準體系定義內容示例 56

前 言本規(guī)范的制訂是為了更好地實現中國移動企業(yè)級省大數據平臺數據治理子系統的建設和管理,為省大數據平臺上的各類基礎技術和應用提供支撐,加強省大數據平臺上數據的管控力度,增強數據治理子系統自身管理能力。本規(guī)范主要包括以下幾方面的內容:總體說明、數據治理體系、數據治理核心模塊、數據治理場景等。本規(guī)范是中國移動企業(yè)級大數據平臺系列規(guī)范之一。該系列規(guī)范的結構、名稱或預計的名稱如下:序號標準編號標準名稱[1]QB-Y-***-2015中國移動企業(yè)級大數據平臺目標架構[2]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范總冊[3]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范分冊[4]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范技術方案分冊[5]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范數據模型分冊[6]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范外部接口分冊[7]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范服務開放分冊[8]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范服務開放技術方案分冊[9]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范數據治理分冊[10]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范數據治理技術方案分冊[11]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范運營維護分冊[12]QB-Y-***-2015中國移動企業(yè)級省大數據平臺技術規(guī)范安全管理技術方案本規(guī)范由中移技﹝××﹞××印發(fā)。本規(guī)范由中國移動通信集團公司業(yè)務支撐系統部提出,集團公司技術部歸口。本規(guī)范起草單位:中國移動通信集團公司業(yè)務支撐系統部。本規(guī)范主要起草人:段云峰、汪新勇、趙靜、周立、、任怡健、王保強、潘剛、劉童桐、王金金、陶濤、劉虹、張紅星、魏春輝。范圍本規(guī)范規(guī)定了中國移動企業(yè)級省大數據平臺數據治理子系統的建設內容,適用于中國移動各省(直轄市、自治區(qū))公司企業(yè)級省大數據平臺數據治理子系統的建設。規(guī)范性引用文件下列文件中的條款通過本規(guī)范的引用而成為本規(guī)范的條款。凡是標注日期的引用文件,其隨后所有的修改單(不包括勘誤的內容)或修訂版均不適用于本規(guī)范。然而,鼓勵根據本規(guī)范達成協議的各方對是否使用這些文件的最新版本進行研究。凡是不標注日期的引用文件,其最新版本適用于本規(guī)范。[1]《中國移動省級經營分析系統業(yè)務規(guī)范(v1.0)》中國移動通信有限公司[2]《中國移動省級經營分析系統技術規(guī)范(v1.0)》中國移動通信有限公司[3]QB-J-010-2006《中國移動省級經營分析系統數據質量管理系統建設方案(v1.5)》中國移動通信有限公司[4]QB-J-006-2006《中國移動省級經營分析系統數據倉庫邏輯數據模型說明(v1.5)》中國移動通信有限公司[5]QB-J-007-2006《中國移動省級經營分析系統數據集市業(yè)務技術規(guī)范(v1.5)》中國移動通信有限公司[6]QB-J-008-2006《中國移動省級經營分析系統與源系統接口規(guī)范(v1.5)》中國移動通信有限公司[7]QB-J-009-2006《中國移動省級經營分析系統與BOSS系統互動技術規(guī)范(v1.5)》中國移動通信有限公司[8]QB-J-003-2006《中國移動省級經營分析系統業(yè)務規(guī)范(v1.5)—基礎業(yè)務分冊》中國移動通信有限公司[9]QB-J-004-2006《中國移動省級經營分析系統業(yè)務規(guī)范(v1.5)—數據業(yè)務分冊》中國移動通信有限公司[10]QB-J-005-2006《中國移動省級經營分析系統業(yè)務規(guī)范(v1.5)—集團客戶分冊》中國移動通信有限公司[11]QB-J-001-2006《中國移動業(yè)務運營支撐系統(BOSS)業(yè)務技術規(guī)范營銷資源管理分冊(2.0版)》中國移動通信有限公司[12]QB-J-001-2006《中國移動業(yè)務運營支撐系統(BOSS)業(yè)務技術規(guī)范客服信息分冊(2.0版)》中國移動通信有限公司[13]QB-J-001-2006《中國移動業(yè)務運營支撐系統(BOSS)業(yè)務技術規(guī)范(2.0版)》中國移動通信有限公司[14]QB-J-021-2007《中國移動省級經營分析系統數據倉庫邏輯數據模型規(guī)范(v2.0)》中國移動通信有限公司[15]QB-J-020-2007《中國移動省級經營分析系統與源數據接口規(guī)范(v2.0)》中國移動通信有限公司[16]QB-J-022-2007《中國移動省級經營分析系統數據集市業(yè)務技術規(guī)范(v2.0)》中國移動通信有限公司[17]QB-J-019-2007《中國移動省級經營分析系統業(yè)務規(guī)范渠道運營管理分析監(jiān)控分冊(v1.0)》中國移動通信有限公司[18]QB-J-018-2007《中國移動省級經營分析系統業(yè)務規(guī)范客戶服務分冊(v2.0)》中國移動通信有限公司[19]QB-J-017-2007《中國移動省級經營分析系統業(yè)務規(guī)范集團客戶分冊(v2.0》中國移動通信有限公司[20]QB-J-016-2007《中國移動省級經營分析系統數據質量管理系統業(yè)務技術規(guī)范(V2.0)》中國移動通信有限公司[21]《中國移動業(yè)務支撐網4A安全技術規(guī)范》中國移動通信有限公司[22]《中國移動省級經營分析系統技術規(guī)范總冊(v2.0全量版)》中國移動通信有限公司[23]《中國移動省級經營分析系統技術規(guī)范邏輯模型分冊(v2.0全量版)》中國移動通信有限公司[24]《中國移動省級經營分析系統技術規(guī)范數據集市分冊(v2.0全量版)》中國移動通信有限公司[25]《中國移動省級經營分析系統技術規(guī)范數據質量管理子系統分冊(v2.0全量版)》中國移動通信有限公司[26]《中國移動省級經營分析系統業(yè)務規(guī)范(v2.0全量版)》中國移動通信有限公司[27]《中國移動省級經營分析系統技術規(guī)范源系統接口分冊(v2.0全量版)》中國移動通信有限公司[28]QB-J-002-2008《中國移動省級NG1-BASS技術規(guī)范總冊(v1.0)》中國移動通信集團公司[29]QB-J-003-2008《中國移動省級NG1-BASS技術規(guī)范數據集市分冊(v1.0)》中國移動通信集團公司[30]QB-J-004-2008《中國移動省級NG1-BASS技術規(guī)范邏輯模型分冊(v1.0)》中國移動通信集團公司[31]QB-J-005-2008《中國移動省級NG1-BASS技術規(guī)范源系統接口分冊(v1.0)》中國移動通信集團公司[32]QB-J-006-2008《中國移動省級NG1-BASS技術規(guī)范元數據管理分冊(v1.0)》中國移動通信集團公司[33]QB-J-007-2008《中國移動省級NG1-BASS技術規(guī)范數據質量管理子系統分冊(v1.0)》中國移動通信集團公司[34]QB-J-008-2008《中國移動省級NG1-BASS業(yè)務技術規(guī)范客戶分析及運營分冊(v1.0)》中國移動通信集團公司[35]QB-J-001-2008《中國移動省級NG1-BASS業(yè)務規(guī)范(v1.0)》中國移動通信集團公司[36]QB-Y-003-2009《中國移動省級NG1-BASS技術規(guī)范總冊(v2.0)》中國移動通信集團公司[37]QB-Y-004-2009《中國移動省級NG1-BASS技術規(guī)范數據集市分冊(v2.0)》中國移動通信集團公司[38]QB-Y-005-2009《中國移動省級NG1-BASS技術規(guī)范邏輯模型分冊(v2.0)》中國移動通信集團公司[39]QB-Y-006-2009《中國移動省級NG1-BASS技術規(guī)范外部接口分冊(v2.0)》中國移動通信集團公司[40]QB-Y-007-2009《中國移動省級NG1-BASS技術規(guī)范元數據管理分冊(v2.0)》中國移動通信集團公司[41]QB-Y-008-2009《中國移動省級NG1-BASS技術規(guī)范數據質量管理子系統分冊(v2.0)》中國移動通信集團公司[42]QB-Y-002-2009《中國移動省級NG1-BASS業(yè)務規(guī)范(v2.0)》中國移動通信集團公司[43]QB-Y-052-2010《中國移動省級NG2-BASS(v3.0)業(yè)務規(guī)范》中國移動通信集團公司[44]QB-Y-053-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范總冊》中國移動通信集團公司[45]QB-Y-054-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范數據集市分冊》中國移動通信集團公司[46]QB-Y-055-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范邏輯模型分冊》中國移動通信集團公司[47]QB-Y-056-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范外部接口分冊》中國移動通信集團公司[48]QB-Y-057-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范元數據管理分冊》中國移動通信集團公司[49]QB-Y-058-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范數據質量管理子系統分冊》中國移動通信集團公司[50]QB-Y-059-2010《中國移動省級NG2-BASS(v3.0)技術規(guī)范多OP能力交互分冊》中國移動通信集團公司[51]QB-Y-060-2010《中國移動省級增值業(yè)務綜合運營平臺業(yè)務規(guī)范(v1.0)》中國移動通信集團公司[52]QB-Y-061-2010《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范(v1.0)》中國移動通信集團公司[53]QB-Y-062-2010《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范-數據管理分冊(v1.0)》中國移動通信集團公司[54]QB-Y-063-2010《中國移動省級增值業(yè)務綜合運營平臺接口規(guī)范》中國移動通信集團公司[55]QB-Y-039-2011《中國移動省級NG2-BASS(v3.5)業(yè)務規(guī)范》中國移動通信集團公司[56]QB-Y-038-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范總冊》中國移動通信集團公司[57]QB-Y-040-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范數據集市分冊》中國移動通信集團公司[58]QB-Y-041-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范邏輯模型分冊》中國移動通信集團公司[59]QB-Y-042-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范外部接口分冊》中國移動通信集團公司[60]QB-Y-043-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范元數據管理分冊》中國移動通信集團公司[61]QB-Y-044-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范數據質量管理子系統分冊》中國移動通信集團公司[62]QB-Y-045-2011《中國移動省級NG2-BASS(v3.5)技術規(guī)范OP能力交互分冊》中國移動通信集團公司[63]QB-Y-046-2011《中國移動省級增值業(yè)務綜合運營平臺業(yè)務規(guī)范(v1.5)》中國移動通信集團公司[64]QB-Y-047-2011《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范(v1.5)》中國移動通信集團公司[65]QB-Y-048-2011《中國移動省級NG2-BASS技術規(guī)范系統安全管理分冊(v1.5)》中國移動通信集團公司[66]QB-Y-044-2012《中國移動省級NG2-BASS(v4.0)業(yè)務規(guī)范》中國移動通信集團公司[67]QB-Y-045-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范總冊》中國移動通信集團公司[68]QB-Y-045.1-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范數據集市分冊》中國移動通信集團公司[69]QB-Y-045.2-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范邏輯模型分冊》中國移動通信集團公司[70]QB-Y-045.3-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范外部接口分冊》中國移動通信集團公司[72]QB-Y-045.4-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范元數據管理分冊》中國移動通信集團公司[73]QB-Y-045.5-2012《中國移動省級NG2-BASS(v4.0)技術規(guī)范數據質量管理子系統分冊》中國移動通信集團公司[74]QB-Y-046-2012《中國移動省級增值業(yè)務綜合運營平臺業(yè)務規(guī)范V2.0.0》中國移動通信集團公司[75]QB-Y-047-2012《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范V2.0.0》中國移動通信集團公司[76]QB-Y-047.1-2012《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范數據管理分冊V2.0.0》中國移動通信集團公司[77]QB-Y-044-2013《中國移動省級NG2-BASS(v4.5)業(yè)務規(guī)范》中國移動通信集團公司[78]QB-Y-045-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范總冊》中國移動通信集團公司[79]QB-Y-045.1-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范數據集市分冊》中國移動通信集團公司[80]QB-Y-045.2-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范邏輯模型分冊》中國移動通信集團公司[81]QB-Y-045.3-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范外部接口分冊》中國移動通信集團公司[82]QB-Y-045.4-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范元數據管理分冊》中國移動通信集團公司[83]QB-Y-045.5-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范數據質量管理子系統分冊》中國移動通信集團公司[84]QB-Y-045.6-2013《中國移動省級NG2-BASS(v4.5)技術規(guī)范安全管理技術方案》中國移動通信集團公司[85]QB-Y-046-2013《中國移動省級增值業(yè)務綜合運營平臺業(yè)務規(guī)范V2.5.0》中國移動通信集團公司[86]QB-Y-047-2013《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范V2.5.0》中國移動通信集團公司[87]QB-Y-047.1-2013《中國移動省級增值業(yè)務綜合運營平臺技術規(guī)范數據管理分冊V2.5.0》中國移動通信集團公司術語、定義和縮略語下列術語、定義適用于本規(guī)范:字母名詞解釋CCWMCWM標準是OMG組織定義的數據倉庫和相關系統的國際元數據標準,給出了各種元數據結構的標準定義。CWM標準的目的在于:使數據倉庫和商業(yè)智能軟件的元數據在異構的數據分析工具、數據倉庫平臺、元數據存儲庫等系統之間進行交互。EETL特指從數據源系統到大數據平臺的數據抽取、轉換和加載。G管理元數據描述大數據平臺中管理領域相關概念、關系、規(guī)則的數據,主要包括人員角色、崗位職責、管理流程等信息。H核心元模型大數據平臺核心元模型是以CWM為基礎擴展形成的,針對大數據平臺的物理模型、邏輯模型、數據處理過程、接口單元、指標和維度編碼等主要實體進行精確定義,并要求各省大數據平臺統一遵循的元模型。定義核心元模型的目的是建立大數據平臺的統一元數據管理標準,為元數據管理的功能層與應用層解耦、為企業(yè)級總部大數據平臺和企業(yè)級省大數據平臺的元數據交換和相互理解提供統一的語義基礎。H核心元模型參照表核心元模型參照表是對核心元模型中的枚舉類型屬性進行枚舉值定義的編碼表。參照表為枚舉類型屬性的每個枚舉值定義了唯一的編碼,并明確該編碼的語義,是核心元模型標準化定義的重要組成部分。J技術元數據描述大數據平臺中技術領域相關概念、關系、規(guī)則的數據。主要包括對數據結構、數據處理方面的特征描述,覆蓋大數據平臺數據源接口、數據倉庫、ETL、OLAP、數據挖掘、前端展現等全部數據處理環(huán)節(jié)。S數據處理過程數據從數據源系統到大數據平臺前端使用的整個處理過程,包含大數據平臺數據倉庫內部的數據抽取、轉換和加載。S數據采集點覆蓋大數據平臺數據處理環(huán)節(jié)的、獲取每個環(huán)節(jié)運行狀態(tài)的實體。該實體可以是程序實體也可以是任務實體S數據質量報告數據質量報告是對數據質量日常監(jiān)控以及質量評估等過程累積的各種信息進行匯總、梳理、統計和分析,形成的統計報告S數據質量監(jiān)控通過獲取大數據平臺各環(huán)節(jié)的數據質量監(jiān)控信息,結合元數據庫中的有關檢查規(guī)則,對各個環(huán)節(jié)的數據質量情況進行判斷,并及時向數據質量監(jiān)控人員報告。S數據質量規(guī)則庫數據質量規(guī)則庫是對數據質量管理活動所用到的各種判斷及校驗規(guī)則進行歸類和存放的存儲結構,存儲的內容包括采集規(guī)則、監(jiān)控規(guī)則、告警規(guī)則和審計規(guī)則等S數據質量信息庫數據質量管理子系統存儲層上的存儲結構,用于存儲數據質量信息采集程序采集的數據質量信息、質量評估信息、問題解決方案和問題處理流程信息等S省公司中國移動通信集團各?。ㄖ陛犑?、自治區(qū))移動通信有限公司。SSQL腳本自動解析SQL腳本自動解析指通過對SQL腳本的詞法、語法和語義進行分析,自動生成滿足CWM規(guī)范要求的數據處理過程的技術元數據的功能。Y業(yè)務元數據描述大數據平臺中業(yè)務領域相關概念、關系、規(guī)則的數據。主要包括業(yè)務術語、信息分類、指標定義(指標口徑)、業(yè)務規(guī)則等信息。Y元模型元模型是描述元數據的基礎模型結構,用于說明元數據對象的各種屬性、結構和關系。Y元數據元數據是描述數據間關系的數據。大數據平臺中元數據泛指描述數據概念(Concepts)、數據間關系(Roles)、數據處理規(guī)則(Rules)的數據,其中,領域語義(Semantics)和知識(Knowledge)也屬于元數據的范疇。D數據標準指在中國移動臺企業(yè)級省大數據平臺下為了使企業(yè)內外部使用和交換的數據是一致和準確的,經協商一致制定并由大數據治理委員會主管機構批準,具有行業(yè)特點且共同使用和重復使用的一種規(guī)范性約束。D數據標準體系指數據標準按照中國移動企業(yè)級省大數據平臺需求對數據進行標準化的劃分歸類。D數據標準內容按照數據標準體系劃分的要求分別給出各數據標準制定的規(guī)范內容。D行業(yè)參考模型實體中國移動規(guī)范中原定義或新增加的邏輯數據模型LDM實體。D公共代碼標準需要引用外部公共標準機構的標準。如:世界各國和地區(qū)名稱代碼等。下列略縮語適用于本規(guī)范:縮寫英文描述中文描述ASTAbstractSyntaxTree抽象語法樹BOSSBusinessOperationSupportSystem業(yè)務運營支撐系統CWMCommonWarehouseMetamodel公共倉庫元模型ETLExtractionTransformationLoading抽取、轉換和加載OLAPOn-lineAnalysisProcess在線分析處理XMIXMLMetadataInterchangeXML元數據交換BIBusinessIntelligence商務智能RESTRepresentationalStateTransfer表述性狀態(tài)轉移總體說明概述本規(guī)范用于指導企業(yè)級省大數據平臺數據治理子系統建設,規(guī)定了省大數據平臺數據治理的范圍和要求,明確了數據治理子系統的體系結構,制定了數據治理子系統的功能和處理流程。數據治理子系統包含數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理等功能模塊。本方案借鑒資產管理的方法理論來管理數據,將數據作為一種特殊的資產,對進入平臺的數據進行標準化的規(guī)范約束,并以元數據作為驅動,連接數據的標準管理、數據質量管理、數據數據安全管理的各個階段,形成統一、完善的數據治理體系,以解決實際業(yè)務問題為導向,增強數據治理子系統對業(yè)務發(fā)展的支撐能力。目標數據治理子系統的建設為數據治理工作提供強有力的系統支撐。本期規(guī)范建設目標是以元數據為驅動,建立省大數據平臺完整的數據治理體系。從組織架構、系統功能等方面增強數據宏觀管控,并實現精細化管理,具體包括:數據治理組織架構管理:定義數據治理所需人員組織上的崗位和職責,從管理角度支撐數據治理工作的落地和執(zhí)行。數據標準管理:建立企業(yè)級省大數據平臺數據標準體系,并制定數據標準運維管控制度和流程。元數據管理:降低元數據使用難度、提升用戶體驗,使大數據平臺各類用戶均能參與到元數據運營維護當中。數據質量管理:為內、外部用戶提供平臺化的數據質量監(jiān)控;通過擴充和優(yōu)化公共規(guī)則庫、保證數據的完整性、一致性、準確性、及時性、合法性,提升用戶使用感知;并提供數據質量應用滿足個性化需求。數據資產管理:重點建設從規(guī)劃、注冊、運維到注銷的全流程管理體系,使數據資產管理系統化、可視化。數據安全管理:建立體系化的數據安全管控策略,通過用戶安全管理、數據安全管理實現全方位數據安全管控機制,通過技術手段與管理措施相結合的方式落實數據安全,做到事前可管、事中可控、事后可查。原則企業(yè)級省大數據平臺數據治理子系統建設應遵循以下基本原則:?有效性原則體現大數據平臺數據治理過程中數據的標準、質量、價值、管控的有效性、高效性。價值化原則體現數據治理過程中以數據資產為價值核心,最大化大數據平臺的數據價值。?統一性原則體現大數據平臺架構統一、標準統一、元數據統一、質量流程統一、資產價值統一的一體化管控平臺體系。開放性原則體現平臺化、開放性運維思想,實現人人參與數據治理、人人參與數據運維。產品化原則體現大數據平臺數據治理能力的顯性化,通過產品化互聯網思維服務大數據平臺數據生態(tài)圈用戶。安全性原則體現安全的重要性、必要性,保障大數據平臺數據安全和數據治理過程中數據的安全可控。數據治理體系總體框架數據治理總體框架包括組織架構、數據治理模塊、數據運維三部分。通過組織架構建立管理辦法,制定工作流程,確定角色職責。數據治理模塊主要包括數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理,各模塊協同運營,確保大數據平臺的數據一致、安全、有效。數據運維貫穿整個數據治理體系的流程中,實現平臺化的運維管理思路。數據治理總體框架如圖51所示:核心領域大數據平臺核心領域大數據平臺數據治理工具數據安全管理數據資產管理元數據管理數據質量管理數據標準管理組織架構組織架構定義角色與職責規(guī)劃和策略管理辦法數據運維質量運維管控運維資產運維組織架構合適嗎圖STYLEREF1\s5SEQ圖\*ARABIC\s11數據治理體系框架組織架構是否模糊化,簡要說一下數據治理需要由專人、專職負責,不明說建立專業(yè)機構。是否模糊化,簡要說一下數據治理需要由專人、專職負責,不明說建立專業(yè)機構。數據治理組織的構建旨在通過建立數據治理組織架構明確各級角色和職責,保障數據治理的各項管理辦法、工作流程的實施,推送數據治理工作的有序開展。組織構成數據治理組織架構主要由數據治理委員會、數據治理中心和各業(yè)務部門構成。組織架構劃分和角色設定如圖52所示:圖STYLEREF1\s5SEQ圖\*ARABIC\s12數據治理組織架構圖角色職責組織責任體系是數據治理責任落地的保障,數據治理組織架構通過明確各角色職責,實行認責制度,讓數據治理工作更好的融入到數據日常使用和相關的工作中,從而推動數據運維自治的實現,如REFOLE_LINK11\h表5-1。表5-1數據治理組織架構角色職責定義內容組織結構角色角色描述角色主要職責數據治理委員會數據管理決策者由公司主管領導和各業(yè)務部門領導組成負責牽頭數據治理工作;制定數據治理的政策、標準、規(guī)則、流程,協調認責沖突;對數據事實治理,保證數據的質量和隱私;在數據出現質量問題時負責仲裁工作。數據治理中心數據平臺運營者數據管理中心機構的平臺運營人員負責提交數據標準的要求及數據質量規(guī)則和業(yè)務規(guī)范,解釋數據的業(yè)務規(guī)則和含義;監(jiān)督各項數據規(guī)則和規(guī)范的約束的落實情況;負責數據治理平臺中整體數據的管控流程制定和平臺功能系統支撐的實施;負責平臺的整體運營、組織、協調。各業(yè)務部門數據提供者相關數據開發(fā)提供人員負責數據及相關系統的開發(fā),有責任執(zhí)行數據標準和數據質量內容;負責從技術角度解決數據質量問題;作為數據出現質量問題時的主要責任者。數據維護者數據維護人員制定相關數據標準、數據制度和規(guī)則;遵守和執(zhí)行數據標準管控相關的流程,根據數據標準要求提供相關數據規(guī)范;作為數據出現質量問題時的次要責任者。數據消費者數據使用人員,包含內部用戶和外部用戶作為數據治理平臺數據管控流程的最后參與使用者;是數據資產價值的獲益人;作為數據治理平臺數據閉環(huán)流程的發(fā)起人。系統架構系統功能框架數據治理功能框架明確了數據治理在企業(yè)級省大數據平臺中的定位,并以合理的功能層次劃分指導數據治理系統相關功能建設。系統功能框架如REFOLE_LINK12\h圖53所示。圖STYLEREF1\s5SEQ圖\*ARABIC\s13數據治理功能框架圖企業(yè)級省大數據平臺門戶:企業(yè)級省大數據平臺統一的訪問接口,供企業(yè)內、外部用戶、第三方獨立開發(fā)者訪問及使用數據治理相關產品或功能,并負責統一訪問認證及日志記錄。能力開放平臺:企業(yè)級省大數據平臺統一的對外服務層,數據治理相關的產品及應用均通過這個層次進行注冊、發(fā)布,并對內、外部開放。數據治理系統:數據標準:在數據標準管理組織架構推動和指導下,遵循協商一致制定的數據標準規(guī)范,借助標準化管控流程得以實施數據標準化的整個過程。元數據:采用集中式管理模式進行元數據管理,全公司元數據邏輯集中,即元數據管理模塊作為公司元數據的統一發(fā)布源,集中管理元數據,提供元數據集中創(chuàng)建、維護、查詢功能。數據質量:對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數據質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據資產:規(guī)劃、控制、提供數據及信息資產的一組業(yè)務職能,包括開發(fā)、執(zhí)行和監(jiān)督有關數據的計劃、政策、方案、項目、流程、方法和程序,從而控制、保護、提高數據資產的價值。數據安全:通過計劃、制定、執(zhí)行數據安全政策和安全策略措施,為企業(yè)級大數據平臺的數據和信息提供行之有效的認證、授權、訪問和審計。數據運維在左側目錄里缺少一個模塊:包括數據資產運維、數據質量運維,借鑒互聯網思維,通過產品化運維工具來整體提升企業(yè)級大數據平臺數據運維效率。在左側目錄里缺少一個模塊企業(yè)級省大數據平臺:大數據基礎平臺,負責數據的接入、存儲、管理、應用及相關基礎功能支撐。系統模塊流程圖STYLEREF1\s5SEQ圖\*ARABIC\s14數據治理系統功能各模塊關系圖 如圖54所示,數據治理系統各模塊之間,根據數據操作的流程產生相互關聯,各模塊業(yè)務流程關系說明如下:L1:數據標準管理模塊將標準定義映射到元數據信息上,實現數據標準的規(guī)范要求落地。L2:元數據管理模塊為數據資產管理模塊提供存儲模型、屬性信息查詢服務。L3:元數據管理模塊為數據質量管理模塊提供元數據相關屬性信息。L4:用戶通過元數據定義大數據平臺的數據結構。L5:數據質量管理模塊根據采集需求從大數據平臺采集數據。L6:數據質量管理模塊將數據質量問題反饋給大數據平臺。L7:數據質量管理模塊向資產模塊提交數據質量評估結果。L8:元數據管理模塊為數據安全管理模塊提供隱私級別定義服務。L9:數據資產管理模塊發(fā)起資產訪問申請,由數據安全管理模塊控制用戶訪問權限,控制數據資產的增加、刪除、變更操作權限,對訪問的數據內容、數據屬性等操作進行管控。L10:數據安全管理模塊為大數據平臺提供數據訪問權限策略。系統邊界企業(yè)級省大數據平臺數據治理子系統與其它子系統之間存在數據交互、功能調用、流程穿插等關聯。數據治理子系統與大數據平臺系統內其它子系統的關系示意如REFOLE_LINK13\h圖55所示:數據治理元數據管理數據治理元數據管理數據標準管理數據質量管理數據資產管理數據安全管理數據服務平臺企業(yè)級省大數據平臺平臺運維圖STYLEREF1\s5SEQ圖\*ARABIC\s15數據治理子系統與各子系統邊界圖與企業(yè)級省大數據平臺關系企業(yè)級省大數據平臺上的數據資產是數據治理的主要對象;數據治理為企業(yè)級省大數據平臺提供數據標準指導、元數據定義、數據質量監(jiān)控、數據安全等方面的全面支撐,使大數據平臺上的數據資產清晰、有序、安全、可控。與對外能力開放平臺關系數據治理為對外能力開放平臺提供元數據查詢、數據安全管理支持;對外能力開放平臺為數據治理提供統一的數據治理產品及功能注冊、發(fā)布、使用服務。與平臺運維系統關系數據治理子系統支撐大數據平臺的數據管控流程,并與平臺運維交互協調,共同支撐大數據平臺整體的安全運維、數據運維和管理運維。數據治理核心模塊數據標準管理背景中國移動企業(yè)級省大數據平臺數據標準是在經營分析系統數據管控要求基礎之上,借鑒互聯網企業(yè)數據治理的經驗而提出的。數據標準是指在中國移動企業(yè)級省大數據平臺下,保障企業(yè)內外部使用和交換數據的一致性和準確性,具有行業(yè)特點且共同使用的一種規(guī)范性約束。數據標準是企業(yè)級省大數據平臺數據治理的基礎性工作,是數據治理建設中的首要環(huán)節(jié)。首先,數據標準為企業(yè)級省大數據平臺提供統一的數據標準定義和平臺邏輯模型。其次,數據標準是企業(yè)級省大數據平臺進行數據治理的依據和根本。再次,數據標準是衡量企業(yè)級省大數據平臺數據資產運營和管理的評估依據。最后,中國移動通過數據標準管理的實施,實現對企業(yè)級省大數據平臺全網數據的統一運營管理。企業(yè)級省大數據平臺數據治理體系中數據標準管理如圖61所示,包括制定數據標準的規(guī)范性文件、進行數據標準化管控及數據標準管理組織。圖STYLEREF1\s6SEQ圖\*ARABIC\s11數據標準管理內容企業(yè)級省大數據平臺數據標準管理與原經營分析系統數據管控的區(qū)別如下表61所示:表STYLEREF1\s6SEQ表\*ARABIC\s11企業(yè)級省大數據平臺數據標準管理與原經營分析系統數據管控區(qū)別企業(yè)級省大數據平臺數據標準管理原經營分析系統數據管控數據范圍涉及企業(yè)內外部數據運營相關的數據,包含BOM三域數據、外部數據。數據僅限于市場經營活動的B域和部分O,M域數據。業(yè)務應用模式以數據標準為基礎的數據治理體系,實現數據的資產化,貫穿整個數據運營的全流程,形成以中國移動大數據平臺為核心的大數據生態(tài)圈,服務于企業(yè)內外部客戶。以支撐企業(yè)內部經營分析為主。服務對象服務于整個大數據生態(tài)圈。原經營分析系統使用人員。目標及原則 數據標準管理的總體目標:通過統一的數據標準制定和發(fā)布,結合制度約束、系統控制等手段,實現中國移動企業(yè)級省大數據平臺數據的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理,提高企業(yè)級省大數據平臺數據治理水平。 數據標準制定的原則:開放性:標準制定人人參與。共享性:數據標準化信息在大數據生態(tài)圈共享使用。完整性:涵蓋客戶、產品、服務、帳務、資源、網絡等全部重要數據信息。有效性:信息準確度高、理解上不存在歧義。一致性:做到“五統一”,定義統一、口徑統一、名稱統一、來源統一、參照統一。規(guī)范性:制度規(guī)范、流程控制、系統管理等。業(yè)務分類和定義數據標準體系分類數據標準制定如REFOLE_LINK14\h圖62所示,包括數據標準體系劃分和數據標準內容制定,數據標準體系可分為基礎類數據標準和指標類數據標準。圖STYLEREF1\s62數據標準體系劃分數據標準內容制定數據標準內容的制定按照數據標準體系分類的要求分別給出數據標準制定的規(guī)范要求。1、基礎類數據標準基礎類數據標準是通過各種業(yè)務處理產生或各類渠道采集的基礎性數據,在全國范圍內必須是唯一定義的,如“用戶品牌”、“歸屬地市”?;A類數據標準分為行業(yè)參考模型實體標準和公共代碼標準。行業(yè)參考模型實體標準指按照行業(yè)需求和中國移動省級數據邏輯模型實體規(guī)范要求,繼承以往數據邏輯模型實體規(guī)范,將各域的邏輯模型實體定義抽象為模型實體標準要求。行業(yè)參考模型實體數據標準體系定義內容如表62所示。表STYLEREF1\s6SEQ表\*ARABIC\s12行業(yè)參考模型實體數據標準體系定義內容行業(yè)參考模型實體標準標準體系屬性說明數據標準編碼根據數據標準編碼命名規(guī)則進行編寫。標準主題數據標準歸屬主題標準子類數據標準歸屬類型中文名稱數據標準中文名稱。英文名稱數據標準英文名稱。實體編號根據行業(yè)參考模型實體編號命名規(guī)則進行編寫。實體名稱根據行業(yè)參考模型實體名稱命名規(guī)則進行編寫。數據版本該數據標準的版本信息。數據體系分類根據數據分類規(guī)則對數據進行分類,以保證數據體系的易用性,以及符合用戶查找習慣。重要級別集團規(guī)范定義的數據為一級,省公司定義的數據為二級,其它常用的數據為三級。數據提供部門該數據標準定義數據的提供部門。數據提供部門負責人該數據標準定義數據提供負責人。數據維護部門該數據標準定義數據維護部門。數據維護部門負責人該數據標準定義數據維護負責人。業(yè)務主管部門該數據標準定義數據業(yè)務主管部門,該部門對數據口徑、編碼取值和相關專業(yè)術語有決定權。業(yè)務主管部門負責人該數據標準定義數據業(yè)務負責人。數據來源系統如:BOSS,CRM,ERP等主要依據關于指標的解釋和描述文件。如集團規(guī)范、省公司規(guī)范、業(yè)務部門制定等等。業(yè)務定義指標的業(yè)務描述口徑,一般由業(yè)務部門使用業(yè)務語言制定。 具體行業(yè)參考模型實體數據標準體系定義內容示例參見《附錄二:數據標準體系定義內容示例》。公共代碼標準,指對于一些共享程度較高、內容相對比較穩(wěn)定的編碼,通??梢越M織力量一次性地編制出來,其中有一些需要引用外部公共標準機構的標準,比如:世界各國和地區(qū)名稱代碼等。公共代碼標準體系定義內容如表63所示。表STYLEREF1\s6SEQ表\*ARABIC\s13公共代碼標準體系定義內容公共代碼標準標準體系屬性說明數據標準編碼根據數據標準編碼命名規(guī)則進行編寫。公共標準號引入外部公共標準號中文標準名稱數據標準中文名稱英文標準名稱數據標準英文名稱。標準狀態(tài)該標準的狀態(tài),如現行、停止。公共標準機構名稱引入該公共標準的機構名稱。數據標準體系根據數據分類規(guī)則對數據進行分類,以保證數據體系的易用性,以及符合用戶查找習慣。重要級別集團規(guī)范定義的數據為一級,省公司定義的數據為二級,其它常用的數據為三級。數據標準引入部門該數據標準引入和維護部門。數據標準引入部門負責人該數據標準引入和數據維護負責人。數據上報系統最終對數據進行計算和發(fā)布的系統,也是各部門唯一獲取指標數據的來源系統。具體行業(yè)參考模型實體數據標準體系定義內容示例參見《附錄二:數據標準體系定義內容示例》。2、指標類數據標準指標類數據標準是數據基礎上按照一定業(yè)務規(guī)則加工匯總的數據,如KPI指標數據。指標類數據又可分為基礎指標和計算指標?;A指標一般不含維度信息,且具有特定業(yè)務和經濟含義。計算指標通常由兩個以上基礎指標計算出。指標類數據標準體系定義內容如表64所示。表STYLEREF1\s6SEQ表\*ARABIC\s14指標類數據標準體系定義內容指標類標準說明基礎屬性數據標準編碼根據數據標準編碼命名規(guī)則進行編寫。中文名稱數據標準中文名稱。英文名稱數據標準英文名稱。應用場景該指標適用于什么場景。數據版本該數據標準的版本信息。數據體系分類根據數據分類規(guī)則對數據進行分類,以保證數據體系的易用性,以及符合用戶查找習慣。重要級別集團規(guī)范定義的數據為一級,省公司定義的數據為二級,其它常用的數據為三級。管理屬性數據提供部門該數據標準定義數據的提供部門。數據提供部門負責人該數據標準定義數據提供負責人。數據維護部門該數據標準定義數據維護部門。數據維護部門負責人該數據標準定義數據維護負責人。業(yè)務主管部門該數據標準定義數據業(yè)務主管部門,該部門對數據口徑、編碼取值和相關專業(yè)術語有決定權。業(yè)務主管部門負責人該數據標準定義數據業(yè)務負責人。數據上報系統最終對數據進行計算和發(fā)布的系統,也是各部門唯一獲取指標數據的來源系統。數據生成系統生成數據所需的數據所在的來源系統,如BOSS系統。數據上游系統數據生成后上報給哪個系統,如ERP系統。業(yè)務屬性主要依據關于指標的解釋和描述文件。如集團規(guī)范、省公司規(guī)范、業(yè)務部門制定等等。業(yè)務定義指標的業(yè)務描述口徑,一般由業(yè)務部門使用業(yè)務語言制定。計算流程/算法用來描述指標詳細的計算過程。指標類型根據管理需要可以將指標分為基礎指標、計算指標兩類。計算指標公式用于描述相關指標間的平衡關系,可用于指標數據審核過程中,能有效地保證指標數據質量。技術屬性計量單位數據使用單位如:“戶”、“分鐘”、“MB”、“元”、“次”、“%”等等。統計精度指標統計數值精確到小數還是整數。數據值域數據的合理取值范圍。統計周期數據統計周期如“日”、“周”、“月”、“季度”、“半年”、“年”等等。統計粒度數據統計粒度如:“用戶級”、“區(qū)縣級”、“地市級”等。統計維度數據統計維度如:“地域”、“品牌”、“在網時長”、“客戶等級”等。指標出數表指標數據來源于哪張物理表。指標出數代碼指標數據來源于物理表的哪個。 具體行業(yè)參考模型實體數據標準體系定義內容示例參見《附錄二:數據標準體系定義內容示例》。技術功能要求數據標準制定數據標準的制定按照本冊中數據標準管理的業(yè)務分類和定義規(guī)范指導要求,基于各企業(yè)級省大數據平臺的數據管控需求進行數據標準規(guī)范的制定。其制定的數據標準規(guī)范內容在全省進行發(fā)布和告知,要求企業(yè)級省大數據平臺系統按照該標準規(guī)范進行統一的數據管理。數據標準制定包括數據標準的編制、數據標準的審查、數據標準的發(fā)布。數據標準化管理組織將數據標準以正式發(fā)文的方式在全公司范圍內進行發(fā)布,并在發(fā)布后將數據標準、版本說明保存?zhèn)浒?。最終將發(fā)布的數據標準更新至數據標準管理模塊中,如REFOLE_LINK22\h圖63所示。圖STYLEREF1\s63改為圖6-4數據標準管理的編制、審查、發(fā)布流程圖改為圖6-4數據標準的編制、審查和發(fā)布通過數據標準管理模塊開發(fā)實現,其流程如REFOLE_LINK15\h圖63示:1、數據標準管理組織協調者組織數據提供者和執(zhí)行者參與數據標準屬性的收集和整理工作,并按照協商一致的原則形成數據標準初稿。2、數據標準初稿進行多次的討論和豐富后,形成數據標準送審稿提交給數據標準管理決策者。3、經過數據標準管理決策者的討論審核后,由數據標準管理組織協調者再次進行數據標準的修改完善,并完成數據標準的發(fā)布。數據標準執(zhí)行數省公司和各部門、分公司統一按照所制定的數據標準實施數據標準管理,數據標準的執(zhí)行流程如圖64所示。圖STYLEREF1\s6SEQ圖\*ARABIC\s14數據標準管理的執(zhí)行流程圖 數據標準執(zhí)行的流程步驟如下: 1、數據標準制定發(fā)布后,將數據標準錄入到數據標準管理模塊。2、數據標準管理執(zhí)行者按照發(fā)布的數據標準,制定和發(fā)布數據標準接口。3、數據標準管理模塊將標準要求提供給數據質量管理根據已錄入系統的數據標準形成稽查規(guī)則,對數據標準管理執(zhí)行者制定和發(fā)布的數據標準接口中的內容進行相關的標準稽核監(jiān)控。4、將標準稽核結果發(fā)送給數據標準管理模塊,并反饋給數據標準管理決策者和數據標準管理執(zhí)行者。數據標準維護數據標準的維護指數據標準建立后,根據業(yè)務需求的發(fā)展變化或外部數據標準要求不一致時,對數據標準的內容進行變更和版本管理,如REFOLE_LINK23\h圖65所示。圖STYLEREF1\s65數據標準管理的變更流程圖 數據標準管理的變更通過數據標準管理系統開發(fā)實現落地,其流程如REFOLE_LINK16\h圖65所示: 1、對執(zhí)行的相關數據標準進行變更請求的申請,組織該數據標準相關執(zhí)行層和各數據運維者進行討論和變更需求匯總。 2、由數據標準管理組織協調機構進行標準變更的審核。 3、討論審議數據標準項的變更內容,并形成標準變更需求審批表提交給數據標準管理決策層進行審批。 4、決策層將審批結果反饋給標準管理組織協調者,并由其進行數據標準發(fā)布及版本維護。數據標準監(jiān)控數據標準監(jiān)控實現對數據標準執(zhí)行過程的監(jiān)控,包括對數據標準的執(zhí)行、效果、問題進行監(jiān)控管理,為后期數據標準維護管理提供依據。數據標準的監(jiān)控通過數據標準管理和元數據管理、數據質量管理協同實現落地,監(jiān)控流程如REFOLE_LINK17\h圖66所示:圖STYLEREF1\s66數據標準管理監(jiān)控流程圖 數據標準管理監(jiān)控流程如下:數據管理者錄入數據標準和元數據信息。根據數據標準制定數據標準接口。根據數據標準生成的稽核規(guī)則,進行前向稽核,稽核正常進行下一流程,稽核非正常返回錯誤文件記錄給數據管理者做數據標準的更新。數據提供者將數據提交到企業(yè)級大數據平臺,并且完成對元數據的采集。對數據提供者數據進行后向稽核,稽核正常則數據可提供數據消費者正常使用,稽核非正常返回錯誤信息記錄給數據提供者做數據修訂。本期建設范圍及內容本期數據標準管理建設范圍要求涉及企業(yè)級省大數據平臺中數據標準內容,但不在全集團范圍內強制統一數據標準規(guī)范。 本期具體建設內容包括:1、數據標準規(guī)范內容涵蓋:行業(yè)參考模型實體標準指標數據標準公共代碼標準2、數據標準化管控內容涵蓋:建立數據標準化管理組織架構。搭建數據標準管理模塊。實現數據標準管理流程的功能系統化,并銜接元數據管理、數據質量管理和數據資產管理形成數據治理的閉環(huán)運維。提供具數據標準產品,如數據標準查詢APP等。實施要求數據標準管理實施要求包括:1、數據標準統一規(guī)劃。按照企業(yè)級省大數據平臺的數據治理要求,結合數據標準規(guī)范指導內容,構建適應企業(yè)級省大數據平臺的數據標準體系,并制定數據標準實施方案。2、建立數據標準管理的支撐體系。要求包括數據標準管理組織架構、數據標準管理辦法和制度流程,以及數據標準管理支撐工具。3、實現中國移動企業(yè)級省大數據平臺中數據業(yè)務口徑和技術口徑有效協同統一。4、支撐中國移動企業(yè)級省大數據平臺的平臺化、產品化和數據資產運營的需求。5、支撐新增企業(yè)級省大數據平臺數據接口內容的標準化定義。6、滿足原有數據可逐步進行數據標準規(guī)范的遷移和統一。元數據管理背景元數據管理模塊是大數據平臺數據治理體系的重要組成部分。IT研究與顧問咨詢公司Gartner發(fā)布的《2013年十大戰(zhàn)略性技術趨勢》中對于企業(yè)戰(zhàn)略性大數據的描述如下:將多個系統,包括內容管理、數據倉庫、數據集市和專門的文件系統等與數據服務和元數據相互結合,組合為“邏輯的”企業(yè)數據倉庫。通過對這個“邏輯的數據倉庫”的有效治理,為企業(yè)后續(xù)的數據資產運營、增值以及數據服務提供有效支撐。中國移動企業(yè)級省大數據平臺是這種邏輯的企業(yè)數據倉庫的一個具體落地實現,元數據管理的建設將貫穿大數據平臺建設、使用、運營、維護的全過程,并發(fā)揮以下作用:提供企業(yè)級數據字典,便于內外部客戶更好地了解企業(yè)數據概況;提供全局元數據查詢檢索,便于用戶快速定位元數據;提供元數據詳細描述,使用戶了解數據組成、結構及數據流向;提供血緣/影響分析功能,便于用戶進行分析判斷、問題定位;提供元數據接口服務,便于其它系統或模塊使用元數據服務;提供元數據應用,方便終端用戶使用元數據;提供統一的基于元數據描述的API管理產品,集中管理平臺開放的內外部API。大數據平臺的元數據管理方面,與傳統經分相比,主要有以下不同點:管理范圍不同:新增集群NameNode節(jié)點的管理元數據;新增集群DataNode節(jié)點的業(yè)務/技術元數據;新增大數據平臺內部以及其與DW、MPP等跨工具/產品的復雜數據流元數據。管理制度方面:管理流程:新增跨部門、跨系統的多層次交互式的元數據注冊、維護、管理、使用流程,同時需要針對不同用戶提供有針對性的元數據產品支持。角色權限:管理上更加細致的分工,不同部門需新增相應的元數據查詢、管理、維護角色;工具支撐方面:需支持大數據平臺新增元數據范圍地獲取、存儲與管理;需支持大數據平臺海量元數據的獲取、存儲、管理及應用;需提供標準化定義,并支持管理集群節(jié)點快速獲取分節(jié)點的運行元數據信息;需對大數據平臺的文件、語音、圖片等非結構化數據的標記元數據,即大數據相關的詞庫元數據進行管理,并提供檢索查詢等應用支持;需通過元數據對大數據平臺的新增數據進行敏感定義及標記;需為終端用戶提供簡單易用的元數據產品,降低使用成本。元數據運營模式本期規(guī)范要求,在提升元數據用戶使用體驗的同時,著重改善元數據管理的運營模式,重點建設前向的元數據管控機制,并逐步探索集中的大數據平臺元數據管理方式。本期規(guī)范中,除元數據基礎功能外,對元數據管理的運行維護提出以下要求:對于集團統一標準規(guī)范的元數據,嚴格按照集團提供元數據標準落地;對于大數據平臺的集群NameNode、文件目錄等部分元數據,通過互通機制定期按集團要求格式上報。元模型標準關于元數據標準的元模型部分,將在經分規(guī)范的核心元模型基礎上,根據大數據平臺新增數據結構特點進行擴充,以滿足這部分元數據獲取、存儲、管理及應用要求。主要涉及集群節(jié)點的namenode元數據及Hadoop的文件/目錄元數據。本期規(guī)范需要上報的元數據信息,主要涉及集群NameNode元數據,包括集群的運行監(jiān)控信息及文件/目錄元數據。圖STYLEREF1\s67總部集群與省集群節(jié)點的元數據上報關系示意 REFOLE_LINK18\h圖67為集團總控節(jié)點與省集群節(jié)點的元數據上報關系示意圖。集群節(jié)點定期上報其自身的NameNode階段運行信息及數據節(jié)點的數據信息,供集團了解省分節(jié)點運行、存儲情況,為后續(xù)的統一管控提供基礎支撐。集群監(jiān)控類 對于集群NameNode節(jié)點的運行監(jiān)控類元數據,屬于ApacheHadoop的私有定義,暫無法使用或在CWM規(guī)范基礎上擴充。故直接引用ApacheHadoop的相關定義,并對其進行適當規(guī)范。本期對NameNode節(jié)點的元數據上報信息要求如下:英文名中文名類型備注ConfiguredCapacity配置容量doublePresentCapacity當前總容量doubleDFSRemaining剩余容量doubleDFSUsed已用容量doubleDFSUsed%使用率double小數點后4位Underreplicatedblocks待復制數據塊doubleBlockswithcorruptreplicas中斷復制數據塊doubleMissingblocks丟失數據塊doubleDatanodesavailable可用節(jié)點數doubleDatanodesNonavailable不可用節(jié)點數double需要上報的作業(yè)監(jiān)控信息如下:英文名中文名類型備注Name名稱textDescription描述textLastModified更新時間dateSteps步驟doubleStatus狀態(tài)textOwner擁有人textDatanode節(jié)點需要上報的元數據信息如下:英文名中文名類型備注Name節(jié)點名稱textHostname主機名textRack所屬機架textDecommissionStatus可用狀態(tài)textConfiguredCapacity配置容量doubleDFSUsed已用容量doubleNonDFSUsed非DFS使用容量doubleDFSRemaining剩余容量doubleDFSUsed%已用容量double小數點后4位DFSRemaining%使用率double小數點后4位ConfiguredCacheCapacity配置緩存容量doubleCacheUsed緩存使用量doubleCacheRemaining緩存剩余量doubleCacheUsed%緩存使用率double小數點后4位CacheRemaining%緩存剩余率double小數點后4位Lastcontact最近檢查時間date數據節(jié)點類為支持大數據平臺下文件、目錄、Hbase、Hive相關元數據的集中存儲,本期規(guī)范將CWM核心元模型的Table、Column、View類進行擴展,同時新增模型包,里邊包含目錄(Directory)和文件(File)兩個實體及相關屬性。關于經分系統核心元模型及參考表,元模型標準CWM的相關定義,請參考《中國移動省級NG2-BASS(v5.0)技術規(guī)范核心元模型規(guī)范》中的相關章節(jié)描述。修訂內容如下:1、需要修改的元模型包括:Table類增加以下屬性:location:String說明:存儲大數據平臺上該表對應的HDFS文件目錄信息。createTime:String說明:該表的創(chuàng)建時間。creator:String說明:該表的創(chuàng)建人。Column類增加以下屬性:partitionColumnId:String說明:Hive表對應的分區(qū)字段編號。View類增加以下屬性:createTime:String說明:該視圖的創(chuàng)建時間。creator:String說明:該視圖的創(chuàng)建人。2、需要增加的元模型包括:ColumnFamily類有如下屬性:name:String說明:Hbase對應的列簇名稱。File類有如下屬性:name:String說明:文件名稱。path:String說明:文件路徑信息。compressorType:String說明:壓縮類型。size:String說明:文件大小。type:String說明:文件類型。permission:String說明:權限。owner:String說明:所有者。group:String說明:所屬用戶組。Directory類有如下屬性:name:String說明:目錄名稱。path:String說明:路徑信息。permission:String說明:權限。owner:String說明:所有者。group:String說明:所屬用戶組。3、需要增加的元模型關系包括:添加TableToDirectory關系;添加ColumnFamilyToDirecitry關系。元數據運維在前期元數據運行維護要求的基礎上,滿足本期大數據平臺的數據治理要求,對元數據的維護提出以下補充要求:強化元數據管理制度要求,每個元數據均需將所屬部門、責任人信息補充完整;為加強數據安全及隱私保護,每個元數據需提供對應的數據隱私級別信息;細化元數據分類,在前期技術、業(yè)務、管理大分類的基礎上,增加從系統所屬部門、系統及模塊角度標記每個元數據;嚴控元數據版本,對于每次變更需詳細記錄變更原因、時間、人員等關鍵信息;細化元數據權限,對于不同的部門、人員、角色,僅授予工作所需的最小權限,對于權限變化要嚴格審批。本期重點建設內容基于大數據平臺“邏輯集中、物理分散”的最終目標原則,元數據管理的建設也將按此目標分步實現。在本期規(guī)范中,強調元數據的運維管理及產品化支撐,元數據產品要簡單易用、用戶體驗不斷提升。主要建設以下內容:元數據之家產品。基于大數據平臺數據治理及改善用戶體驗要求,建設一個方便內外部用戶使用的元數據產品。主要包括以下模塊:集中分類展現;多樣化檢索;詳情多樣化展示;收藏與評價;統計分析;知識庫;權限審批。元數據應用產品:查詢類APP,面向業(yè)務人員及大數據平臺分析人員。輔助開發(fā)產品:團結幫API管理產品,對OpenAPI進行元數據結構化描述,用于對大數據平臺開放API進行注冊、發(fā)布、訂閱及使用管理。數據質量管理與傳統經營分析系統的區(qū)別數據質量為數據的“適用性(fitnessforuse)”,即數據滿足使用需要的合適程度。數據質量通過完整性、一致性、準確性、及時性、合法性等多類維度對數據進行度量。在大數據平臺上,數據質量為其提供潔凈、結構清晰的數據,是大數據平臺開發(fā)數據產品、提供數據服務、發(fā)揮大數據價值的必要前提,是企業(yè)數據資產管理的關鍵因素。大數據平臺數據質量和傳統經營分析系統的區(qū)別如表65所示。表STYLEREF1\s6SEQ表\*ARABIC\s15大數據平臺數據質量和傳統經營分析系統的區(qū)別大數據平臺數據質量經營分析系統數據質量監(jiān)控數據的類型可以對非/半結構化數據中指定信息項進行監(jiān)控,例如Gn日志中的終端信息等僅監(jiān)控結構化數據數據倉庫的類型支持傳統數據倉庫、MPP和Hadoop。僅支持傳統數據倉庫。使用者數據資產的所有者及其授權用戶、數據應用開發(fā)者、租戶等將成為大數據平臺數據質量管理模塊的主要使用者,負責監(jiān)控規(guī)則的設置和監(jiān)控結果的處理。經分運維人員和數據質量管理員為主要使用者,負責將業(yè)務人員的需求在數據質量模塊上實現。運維工作運維人員主要負責保障數據質量功能模塊的正常運行和規(guī)則庫的擴充,規(guī)則配置、執(zhí)行和結果處理等實際工作由用戶自行負責。數據質量運維人員的工作范疇涵蓋數據質量監(jiān)控的全流程,包括采集、規(guī)則配置、告警、結果查看和處理。監(jiān)控模式由事后監(jiān)控向事中、事后監(jiān)控相結合轉化,用戶/應用設置數據質量監(jiān)控規(guī)則后,可以在計算執(zhí)行過程中調用數據質量監(jiān)控作業(yè),無需等待結果出來后再進行監(jiān)控。用戶僅能在結果出來后才能進行監(jiān)控。質量保障數據質量功能模塊是大數據平臺接收源數據的屏障,保障所有接收的源數據均符合大數據平臺的要求;數據質量還是大數據平臺數據資產評估的重要組成部分,定期運行平臺數據資產的相關質量規(guī)則,為數據資產評估提供輸入。未明確規(guī)定數據質量為其它功能模塊提供服務。范圍和原則大數據平臺數據質量的管理范疇,涵蓋從源數據接入大數據平臺到應用輸出的全過程。大數據平臺數據質量管理的原則包括:以用戶需求為中心:數據質量模塊旨在為大數據平臺所有用戶提供服務,平臺功能的增加和增強始終圍繞著用戶的實際使用需求;界面設計需要充分考慮不同類型用戶的需求,既要滿足業(yè)務用戶簡單易懂的需要,也要允許技術用戶實現個性化的監(jiān)控需求。全員參與:大數據平臺的用戶包括數據提供者、數據開發(fā)者、數據管理者、數據消費者,均要參與平臺的數據質量管理;過程控制:數據質量監(jiān)控不僅是在結果輸出后,還包括對計算過程中質量監(jiān)控,一旦發(fā)現問題,可以及時終止進程;持續(xù)改進:數據質量的提升是一個持續(xù)的過程,需要定期對發(fā)現的問題進行評估,提出改進意見;也包括數據質量模塊本身功能的提升和規(guī)則庫的完善。與其它功能模塊的關系與元數據模塊的關系數據質量模塊將與元數據模塊通過接口互通,根據需求獲取相關元數據信息。用戶檢索監(jiān)控對象時,可以檢索監(jiān)控對象的名稱、說明或者其它元數據的屬性信息,數據質量模塊通過接口將檢索條件傳輸到元數據模塊,元數據模塊將檢索結果反饋給數據質量模塊,如REFOLE_LINK19\h圖68所示。圖STYLEREF1\s68數據質量模塊與元數據模塊交互流程用戶對監(jiān)控對象配置監(jiān)控規(guī)則,數據質量功能模塊由元數據管理模塊自動獲取該監(jiān)控對象的物理地址,按照用戶需求自動生成采集規(guī)則。用戶如果需要在監(jiān)控對象血統的相關節(jié)點上配置監(jiān)控規(guī)則,則可以跳轉到元數據平臺上查看監(jiān)控對象的血統圖,找到對應節(jié)點的名稱,然后按照監(jiān)控對象的配置方式進行配置。與數據資產模塊的關系源數據接入大數據平臺,需要進行接收稽核,滿足稽核規(guī)則的源數據才能接入大數據平臺。源數據初次申請進入大數據平臺時,即需要配置其稽核規(guī)則,此后該源數據每次提交數據到大數據平臺,均需要按照設定的規(guī)則進行稽核,并將稽核結果反饋給數據資產模塊,如REFOLE_LINK20\h圖69所示。圖STYLEREF1\s69數據質量模塊與數據資產模塊交互流程(資產接收)數據質量模塊對大數據平臺上所有資產進行定期的監(jiān)控,并將監(jiān)控結果反饋給數據資產模塊,為數據資產評估提供支持,如REFOLE_LINK24\h圖610所示。圖STYLEREF1\s610數據質量模塊與數據資產模塊交互流程(資產評估)本期數據質量功能需求本期數據質量模塊的目標是為內、外部用戶提供平臺化的數據質量監(jiān)控;通過擴充和優(yōu)化公共規(guī)則庫、增強后臺對不同類型數據倉庫和非結構化數據的兼容性,提升用戶使用感受;并提供數據質量應用滿足個性化需求。平臺化數據質量監(jiān)控為外部用戶提供數據質量監(jiān)控界面,用戶可以在界面上完成監(jiān)控對象選擇、規(guī)則配置、告警及結果查看、問題處理等數據質量全流程監(jiān)控。監(jiān)控對象選擇靈活,可以通過多種檢索條件進行檢索;規(guī)則配置界面友好,用戶通過選擇規(guī)則模板直接進行配置;后臺自行適配多種數據倉庫,根據監(jiān)控對象的不同,自動生成適配的作業(yè);設置好的監(jiān)控規(guī)則作為單獨的作業(yè),用戶可以在計算執(zhí)行過程中或計算完成后進行調用。對內質量服務為大數據平臺內部提供數據質量支撐,包括兩方面:資產接收稽核:獲取接入源數據的元數據和數據標準信息,配置相應的監(jiān)控規(guī)則,不滿足稽核規(guī)則的源數據則通知數據資產模塊,不予接收;數據資產評估支撐:對大數據平臺中的數據資產進行定期的監(jiān)控,將監(jiān)控結果輸入到數據資產模塊,作為數據資產評估的一部分。規(guī)則庫數據質量功能模塊將《中國移動企業(yè)大數據平臺規(guī)范數據標準分冊》及本分冊中數據標準、數據安全等相關要求轉化為相應質量監(jiān)控規(guī)則,內置于規(guī)則庫中,并將其它常用數據質量監(jiān)控規(guī)則也納入規(guī)則庫中。規(guī)則庫按照使用場景劃分為不同等級,如文件級、字段級、數據級等,便于用戶選擇。數據質量功能模塊可以為已經確定的場景,設定規(guī)則包,例如數據資產評估,用戶可以直接使用,無需任何配置,也允許用戶根據實際情況對規(guī)則包中的內容進行修改。后臺支撐數據質量功能模塊需要為數據標準、元數據、數據資產、告警通知等提供接口。數據質量功能模塊后臺需要自動適配不同類型數據倉庫,保證采集和規(guī)則配置的兼容性。數據質量功能模塊對規(guī)則和結果的存儲需要滿足大數據平臺的需求。數據質量應用數據質量功能模塊為一線人員提供數據質量應用,包括:績效監(jiān)控:用戶可以在該應用上設置規(guī)則、查看結果以及進行結果的進一步剖析;體檢中心:通過運行該應用,對企業(yè)的數據質量進行了一次全面的體檢,并即時輸出體檢報告,讓企業(yè)時刻了解自身數據系統的健康情況。本期數據質量運維要求本期數據質量運維著重體現“平臺化”、“全員參與”的理念,通過平臺化數據質量監(jiān)控和規(guī)則庫的配合,讓大數據平臺的所有用戶能夠對自己提供或消費的數據進行數據質量管理,可以在數據質量模塊上方便自如的配置需要的監(jiān)控規(guī)則、查看結果并進行后續(xù)處理。數據資產管理數據資產概述背景數據資產化將以資產的角度開展數據管理工作變?yōu)榭赡?,將有助于多角度、全方位開展數據的管理,明確數據安全級別,落實資產責任管理,是實現數據變現的必要前提。數據資產化包含了數據資產梳理盤點和數據價值評估的過程。數據資產是指企業(yè)及組織擁有或控制,能給企業(yè)及組織帶來未來經濟利益的數據資源。數據有可能成為資產,但不是所有數據都能具備資產的屬性。數據資產包含著如下幾個要素:1)被企業(yè)擁有和控制;2)能夠用貨幣來計量;3)能為企業(yè)帶來經濟利益。數據的價值根據其相關性的不同而各不相同,而數據相關性又因數據使用者而異。對某個人群沒有價值的數據,可能對另外一個人群相當有用;在某個時間段內沒有價值的數據,可能在另一個時間段內相當有用。例如:用戶十年前的入網信息,在幾年前是沒有什么價值,但隨著“十年移動”等營銷活動開展,這類信息又非常有價值。系統框架圖STYLEREF1\s611數據資產架構圖如REFOLE_LINK25\h圖611所示,數據資產管理系統包括六個部分:注冊管理:支持多種方式(采集器、在線維護、提供自助注冊接口)注冊數據資產,并提供審核及版本控制等功能;變更管理:支持已注冊數據資產信息的變更、審核和更新功能;審計管理:支持對數據資產的盤點,以及對數據資產訪問記錄的審計;資產統計分析:支持數據資產的評估,包括數據質量、訪問情況等信息的采集,根據這些信息對數據資產進行綜合評估打分;權限管理:對接數據安全管理模塊,除了同步數據安全管理模塊中用戶賬戶信息及權限外,還會將用戶對數據資產訪問的申請信息發(fā)送給數據安全管理模塊進行處理;接口管理:與元數據管理模塊、數據質量管理模塊、數據安全管理模塊對接,收集相關模塊的基礎數據,用于完成數據資產的注冊、稽核及安全管理等工作數據資產化后,將解決目前普遍存在的需求分散重復、口徑模糊等問題,實現成果和經驗的共享和積累,方便實現應用和數據的生命周期的自動化管理。明確的數據資產信息,將有效支撐公司內部知識系統和資源管理的建設,為業(yè)務人員能更快捷、有序、便利地提供資產使用的方式和途徑,支撐數據分析、開發(fā)、運維的自治。數據資產范圍數據資產的范圍和形式應包含企業(yè)擁有的各類數據,如表、視圖、接口、程序等。同時,隨著大數據的發(fā)展,還應納入各種非/半結構化的數據形式,如日志、網頁、圖片、音視頻等。數據資產標識是一個有業(yè)務含義、分段式、全局唯一的字符串,用來區(qū)分識別數據資產的標簽。資產標識包含有資產所屬業(yè)務域、資產類型、提供者等信息。資產標識規(guī)范為五段式結構,每段以點分隔。具體格式如REFOLE_LINK26\h圖612所示:圖STYLEREF1\s612數據資產標識規(guī)范{根前綴}:指數據資產全局前綴,以常量表示。其值為com.cmcc.xxx{業(yè)務域}:指數據資產所歸屬的業(yè)務系統類別域。其值為BSS,OSS,MSS等{資產類型}:指數據資產模型類別。其值為表、文件、圖片、音頻等{提供者/租戶}:指數據資產的生產者,或者是數據資產的所有者。其值一般是生產者或者所有者的標識。其值為MKT(市場)、GRP(集團)、BASS(經分)等{資產名稱}:指數據資產的簡短命名。其值一般是資產對象的名稱或編碼。數據資產標識示例:table.YWB.application_l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論