版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據中臺解決方案
目錄
1.大數據管理的現狀...............................................................1
2.數據中臺的概述..................................................................6
2.1數據中臺概念................................................................8
2.2數據中臺目標................................................................9
3.數據中臺體系...................................................................10
3.1數據連接..................................................................13
3.2數據建模...................................................................14
3.3統(tǒng)計報表...................................................................14
3.4決策儀表板.................................................................14
3.5數據大屏...................................................................15
4.數據中臺核心領域...............................................................15
4.1大數據模型.................................................................20
4.2大數據生命周期............................................................20
4.3大數據標準.................................................................22
4.4主大數據...................................................................24
4.5大數據質量.................................................................25
4.6大數據服務.................................................................27
4.7大數據安全.................................................................27
5.數據中臺保障機制...............................................................28
5.1制度章程..................................................................28
5.1.1規(guī)章制度............................................................28
5.1.2管控辦法............................................................29
5.1.3考核機制.............................................................29
5.2數據中臺組織...............................................................30
5.2.1組織架構.............................................................30
5.2.2組織層次.............................................................31
5.2.3組織職責.............................................................32
5.3流程管理...................................................................34
5.4IT技術應用................................................................35
5.4.1支撐平臺............................................................35
5.4.2技術規(guī)范............................................................37
附件A大數據管理規(guī)范...............................................................39
附件B大數據質量評估辦法............................................................57
附件C大數據質量管理流程............................................................61
關于數據中臺的理解
1.大數據管理的現狀
數據中臺不是產品,而是為了讓數據更快、更省用起來的一些
列產品組件而成的數據產品矩陣與解決方案。企業(yè)在數據中臺解決
方案規(guī)劃時,要基于目前數據在采、存、管、治、用各個環(huán)節(jié)的痛
點,進行針對性的降本提效建設。數據中臺是不是YYDS,能解決業(yè)
務痛點的,才是王道,說不定,幾年之后又出現了新的名詞,現有
的產品體系是否可以更快的升級適應呢。
?企業(yè)數據化管理的痛點
1.指標口徑不統(tǒng)一
產品部門和財務部門一起開會給老板匯報,APP下單用戶數產
品1021W,財務1000W,產品說我的數據是數據團隊出的,財務說我
的也是,那數據為什么不一致呢?原因數據開發(fā)A給運營出的報表,
第1頁
按照業(yè)務的口徑以設備ID去重,數據開發(fā)B,給財務出的報表是按
照userID(注冊會員id)統(tǒng)計,存多設備登錄的情況
2.數據質量差
指標表現異常,業(yè)務第一反應就是“是不是數據不準啊",這
時作為數據部門如何能夠有底氣來反駁這種DISS呢?數據業(yè)務系統(tǒng)
同步到數倉,ETL加工,再輸出到報表應用,會經過多個步驟,每一
個步驟都有可能會出現任務的異常、延遲以及人為的bug,監(jiān)控覆
蓋足夠健全,業(yè)務反饋問題時,數據開發(fā)就可以自信的說,今天數
據無異常(沒有收到報警),而不是我先確認下。
3.數據重復建設
缺少統(tǒng)一的數倉建設和管理規(guī)范,CaseByCase地響應業(yè)務需求,
往往會導致數據的重復建設,例如,數據開發(fā)A接到產品的大盤流
量報表需求,直接基于ODS的明細數據進行ETL,加工出自己的為
了滿足這一報表需求的APP層表,數據開發(fā)B,接到會員營銷的需
求,報表指標不盡相同,小A的APP層表無法直接使用,于是自己
又加工了新的數據表,由此,導致相同指標多個模型出現,但又無
法復用,造成重復建設
4.數據找不到
業(yè)務發(fā)展加上數據的重復建設,數據表的數量在10W+,缺少工
具的指引,尤其是新用戶很難找到需要的數據在哪個表里,處理邏
第2頁
輯是不是自己需要的
5.數據成本增長快
隨著業(yè)務需求發(fā)展,數據處理所需要的存儲和計算成本也線性
或指數增長,對于DAU千萬級的互聯網公司,每個月大數據集群的
資源成本可能也在百萬?千萬級,是真正的成本中心了。往往一線數
據開發(fā)很多只關注新增業(yè)務,不去梳理歷史任務,或者一些低效的
SQL任務占據了大量的資源。
6.數據報表開發(fā)周期長
定制化的數據可視化報表開發(fā)需要數據開發(fā)、接口開發(fā)、前端
開發(fā),產品迭代、活動上線節(jié)奏非???,都需要對應的報表監(jiān)控支
持,單個報表的開發(fā)周期往往在1?2周,對開發(fā)資源的依賴導致需
求響應周期長,很多時候報表上線了,活動結束了。
7.數據需求響應慢
對于無SQL的業(yè)務人員很多探索性的數據分析依賴于數據開發(fā)
的SQL取數,一般SQL取數都是由數倉兼職進行,時間排期就有限,
只能按照提需時間或者緊急需求的申請通道進行處理,臨時取數的
時效性要求更高,經常出現數據輸出了,業(yè)務意見拍腦袋做完決策
了??赡苡腥藛柨刹豢梢园才湃毴?對于有個人追求的程序員,
一直做SQL取數,估計很快就要離職了。
8.數據服務難追蹤
第3頁
數據部門會輸出很多的API接口,由于歷史久遠文檔不完善加
上業(yè)務不斷調整變化,導致接口和應用鏈路斷層,接口出問題只能
由業(yè)務反饋后處理。梳理出流量小的接口要做下線,卻找不到應用
端的人確認,只能先下線看下,有人反饋再處理。
9.數據輸出效率影響運營頻率
精細化運營背景下,用戶運營每個營銷場景需要最精準的確定
目標人群,比如會員生日關懷、迪士尼目標用戶群體投放等,業(yè)務
需要先找數據部門獲取目標用戶的id信息,再進行投放,數據部門
的響應周期和效率制約了運營活動的投放頻次,即數據每周可以處
理3?7次人群調取,那運營活動肯定不能超過這個頻率。
根據行業(yè)信息化發(fā)展的現狀,結合當今行業(yè)數據中臺的要求,
大型集團或政務管理部門現階段大數據管理方面存在以下的不足:
(1)大數據多頭管理,缺少專門對大數據管理進行監(jiān)督和控
制的組織。信息系統(tǒng)的建設和管理職能分散在各部門,致使大數據
管理的職責分散,權責不明確。組織機構各部門關注大數據的角度
不一樣,缺少一個組織從全局的視角對大數據進行管理,導致無法
建立統(tǒng)一的大數據管理規(guī)程、標準等,相應的大數據管理監(jiān)督措施
無法得到落實。組織機構的大數據考核體系也尚未建立,無法保障
第4頁
大數據管理標準和規(guī)程的有效執(zhí)行。
(2)多系統(tǒng)分散建設,沒有規(guī)范統(tǒng)一的省級大數據標準和大
數據模型。組織機構為應對迅速變化的市場和社會需求,逐步建立
了各自的信息系統(tǒng),各部門站在各自的立場生產、使用和管理大數
據,使得大數據分散在不同的部門和信息系統(tǒng)中,缺乏統(tǒng)一的大數
據規(guī)劃、可信的大數據來源和大數據標準,導致大數據不規(guī)范、不
一致、冗余、無法共享等問題出現,組織機構各部門對大數據的理
解難以應用一致的語言來描述,導致理解不一致。
(3)缺少統(tǒng)一的主大數據,組織機構核心系統(tǒng)間的人員等主
要信息并不是存儲在一個獨立的系統(tǒng)中,或者不是通過統(tǒng)一的業(yè)務
管理流程在系統(tǒng)間維護。缺乏對集團公司或政務單位主大數據的管
理,就無法保障主大數據在整個業(yè)務范圍內保持一致、完整和可控,
導致業(yè)務大數據正確性無法得到保障。
(4)缺乏統(tǒng)一的集團型大數據質量管理流程體系。當前現狀
中大數據質量管理主要由各組織部門分頭進行;跨局跨部門的大數
據質量溝通機制不完善;缺乏清晰的跨局跨部門的大數據質量管控
規(guī)范與標準,大數據分析隨機性強,存在業(yè)務需求不清的現象,影
響大數據質量;大數據的自動采集尚未全面實現,處理過程存在人
為干預問題,很多部門存在大數據質量管理人員不足、知識與經驗
不夠、監(jiān)管方式不全面等問題;缺乏完善的大數據質量管控流程和
第5頁
系統(tǒng)支撐能力。
(5)大數據全生命周期管理不完整。目前,大型集團或政務
單位,大數據的產生、使用、維護、備份到過時被銷毀的大數據生
命周期管理規(guī)范和流程還不完善,不能確定過期和無效大數據的識
別條件,且非結構化大數據未納入大數據生命周期的管理范疇;無
信息化工具支撐大數據生命周期狀態(tài)的查詢,未有效利用元大數據
管理。
2.數據中臺的概述
通過靈活的數據交互和探索分析能力,以及OEM白標集成的
方式,全面滿足行業(yè)應用軟件的數據分析需求。它提供多源數據整
合、報表統(tǒng)計、數據可視化、自助式BI分析、以及數據填報等功能,
幫助用戶挖掘數據的潛在價值,為管理者制定決策提供數據支撐。
多數據源整合,為決策分析提供完整數據支持
通過數據查詢設計器,有效整合您分散在企業(yè)內外的各種數據。
包括數據庫、云端數據、本地存放的文件數據以及JSON/OData等
程序數據。既能通過拖拽操作完成跨源的數據建模,也支持直接編
寫查詢語句。最終,通過數據模型訪問控制和行級數據安全管理,
分享給BI分析或報表統(tǒng)計者使用。
自助式BI,強大的交互分析和自由數據探索能力
自助式BI,讓最終用戶毫無約束的與數據交互,任意探索數
第6頁
據背后的真正原因,發(fā)覺價值,為決策制定找到有效的數據支撐。
在Dashboard的設計和分析階段,均提供圖表聯動、數據鉆取、數
據切片器、OLAP等交互式分析功能,僅需通過極少的操作便能找到
最有價值的數據,并能與企業(yè)成員進行協(xié)同討論分析。
數據可視化,讓數據之間的關系更加清晰明了、便于理解
具有多屏自適應能力的儀表板,內置豐富的數據可視化類型,
而且開放的數據可視化插件功能,幾乎可以將任意的可視化組件庫
集成到產品中,比如:Echarts,D3,ChartJS,三維模型等,充分
滿足數據可視化大屏等場景的需要。
在線報表,最終用戶和實施人員都能設計報表
創(chuàng)新的在線報表設計功能,類似微軟Office產品的使用體驗,
功能豐富卻極易上手。從此,對軟件公司而言,客戶定制化報表需
求再也不用修改軟件源代碼;對企業(yè)IT部門而言,讓業(yè)務部門自
主設計所需報表的暢想變得可能。
嵌入式分析,滿足軟件項目的深度集成和OEM合作需要
幾乎可以將WynEnterprise的全部功能集成到您自己的軟件
產品中。對您的用戶而言,他們完全感覺不到我們的存在;對您的
技術人員而言,我們提供靜默安裝、軟件界面定制、單點登錄、報
表/儀表板的設計器和查看器的集成等開箱即用的功能,大大節(jié)省系
統(tǒng)集成所花的時間。
第7頁
2.1數據中臺概念
數據中臺是指將大數據作為組織資產而展開的一系列的具體化
工作,是對大數據的全生命周期管理。
?數據中臺的思想
讓數據更快、更省地用起來
關于數據中臺的定義和概念,已經被講爛了,結合近三年的數
據中臺實踐,總結一下就是“讓數據更快、更省地用起來”的一種
思想、架構。也就是,數據中臺所做的一切,最終的目標都是數據
價值的挖掘和應用輸出,為了達到這一目標,涉及數據的采、存、
管、治、用各個環(huán)節(jié)和流程,可以用來“降本增效”的產品,都歸
屬于數據中臺產品體系。
在數據中臺概念清晰之前,各個互聯網公司其實也都做了很多
的基礎建設工作,只是沒有明確地定義為數據中臺而已。每個公司
都在實踐中尋找解決數據應用實踐方法,例如構建指標體系解決指
標口徑不一致的問題;建設自助取數工具,業(yè)務自助取數不求人,開
第8頁
發(fā)人力釋放專注于數倉模型建設;開發(fā)配置化的BI可視化產品,減
少可視化報表對接口開發(fā)、前端開發(fā)人力的依賴;建設精準營銷(DMP)
平臺,業(yè)務自助圈選目標用戶進行精準觸達,提升運營活動頻率等。
所以,個人理解,數據中臺概念的出現,只是提供了一套完整的解
決方案和思想,把原來的不成體系的“野路子“,扣上”中臺”的
帽子后,成了有方法論、戰(zhàn)略的指引和支撐正規(guī)軍了。
可以把數據中臺類比成汽車工廠,如果發(fā)動機、輪胎等零配件
已經生產完畢,可以很快組裝出一輛汽車。而Hadoop生態(tài),集群建
設,就像水電煤等基礎設施,提供工廠運行所需能源支持,大數據
平臺,數據開發(fā)工具就像是機床設備,提供制造零配件的工具能力,
而數據倉庫的建設,則像是用機床加工好各自零配件,并且提供快
捷的倉庫索引目錄,能夠最短時間找到所需配件。
數據中臺體系是指從組織架構、管理制度、操作規(guī)范、IT應用
技術、績效考核支持等多個維度對組織的大數據模型、大數據架構、
大數據質量、大數據安全、大數據生命周期等各方面進行全面的梳
理、建設以及持續(xù)改進的體系。
2.2數據中臺目標
數據中臺的目標是提高大數據的質量(準確性和完整性),保證
大數據的安全性(保密性、完整性及可用性),實現大數據資源在各
組織機構部門的共享;推進信息資源的整合、對接和共享,從而提
第9頁
升集團公司或政務單位信息化水平,充分發(fā)揮信息化作用。
3.數據中臺體系
數據中臺體系包含兩個方面,一是大數據質量核心領域,二是
大數據質量保障機制。
具體兩者內容及相互關系可以參見下圖:
制度章程組織
?規(guī)章制度?組織架構
?管控辦法?組織層次
?考核機制?組織職責
數
據
數
主據
數
安
據
全
標
數據
準
元
數據匯聚
將異構數據源通過源和目標參數配置實現數據入湖、入倉,
以及存儲介質的轉換,降低人肉腳本處理帶來的風險和維護成本。
構建統(tǒng)一的數據集散中心,打破數據孤島。
資產沉淀
第10頁
將數據提純加工,形成可快速使用的數據模型,建立完善的
數據共享機制與安全管控流程,構建數據復用能力。同時需要對
資產進行常態(tài)化、周期性的質量管控與治理。
產品化能力
數據采集、資產管理、數據應用流程的平臺化、配置化,基
于工具實現數據的快速流轉,提升數據輸出的效率。
業(yè)務賦能
數據驅動決策、為產品智能化、運營精細化賦能。一是賦能
效率的提升,二是賦能過程的數據資產管控。
?數據中臺四大核心能力
整合■資產沉淀
打破數據孤島數據提純加工
■脫敏加密■資產共享管理
屏蔽結構差異數據質量管理
降低成本
服務可視業(yè)務賦能
■加工過程平臺化?數據化管理、決策
■查詢流程簡單化■API應用
■分析過程可視化?AI應用
■服務輸出配置化
通過靈活的數據交互和探索分析能力,以及OEM白標集成
的方式,全面滿足行業(yè)應用軟件的數據分析需求。它提供多源數
據整合、報表統(tǒng)計、數據可視化、自助式BI分析、以及數據填
第11頁
報等功能,幫助用戶挖掘數據的潛在價值,為管理者制定決策提
供數據支撐。
(1)數據應用效率問題
自助BI與可視化分析:以產品化的方式降低數據獲取、數
據分析、數據應用的成本,解決數據響應周期長、開發(fā)成本高、
運營效率低問題
能力要求:集成數據建模、自助分析、數據可視化、數據治
理、智能分析的一站式數智化決策分析平臺,數據開發(fā)專注數倉
模型建設,提供健全的模型、完善的資產元數據信息后,業(yè)務拖
拽式、可視化的數據查詢和分析,不需要數據開發(fā)介入。針對需
要周期性使用的數據,可以保存成可視化Dashboard,自助進行
可視化報表減少,釋放接口和前端開發(fā)人力。比如:QuickBK
觀遠、帆軟BI、tableau等
智能營銷平臺(DMP):基于大數據計算和數據挖掘技術,構
第12頁
建用戶畫像標簽體系,用戶圈選、精細化分層,進行差異化運營
和營銷觸達,提升運營ROI。業(yè)務同學可基于平臺實現從人群圈
選、場景構建、觸達投放、效果回收的閉環(huán),同時,基于算法挖
掘標簽及模型推薦的人群組合,從基于人的經驗運營,到基于大
數據算法推薦的智能運營。
(2)數據資產建設與治理問題
21年云棲大會,阿里云數據中臺負責人強調,要在場景的驅
動下,把數據中臺的資產模塊做的更厚實。
決策分析窗能應用
數鼎諭出
整體應用流程:
3.1數據連接
通過數據連接引擎建立與Oracle、Mysql>SqlServer等各
種關系型數據庫、API、ODBC或者Excel、JSON、XML等數據文件
第13頁
等不同來源的數據連接,支持跨源,用于數據建模。
3.2數據建模
將填報采集的數據和已有業(yè)務系統(tǒng)如OA、ERP、CRM數據庫
的數據,通過可視化數據模型設計器或者自定義SQL數據集,建
立多表關聯模型,并對模型進行字段重命名、二次計算、分組計
算等操作,添加參數及篩選過濾,形成最終用于設計報表和儀表
板的數據集。
3.3統(tǒng)計報表
為業(yè)務層的日常運營提供必備的明細報表,以滿足數據查詢、
報表打印等需要。包括典型的Excel類中國式復雜報表、合同文
檔類報表、分組報表、明細報表、圖表、分欄報表等各種報表類
型。
3.4決策儀表板
以高度交互與自由數據探索的管理看板為基礎,輔助決策的
制定。通過靈活自由的布局頁面,拖拽可視化組件,綁定數據,
生成儀表板。瀏覽者在查看時,可以通過條件過濾、條件格式化、
排序、圖表切換、調整數據綁定等組件,多維自由的從不同視角
進行數據分析。儀表板自帶的聯動和鉆取分析,深入探查數據背
第14頁
后的原因。指導管理層科學決策。
3.5數據大屏
通過可視化大屏,對企業(yè)綜合信息進行展示,滿足企業(yè)內、
外部信息共享與交流的需要。通過各種酷炫的可視化組件,將企
業(yè)核心經營指標、KPI指標、綜合管控指標等直觀的展示到總經
理辦公室、會議室或者會客大廳等,方便管理層掌握企業(yè)經營情
況。
4.數據中臺核心領域
為了有效管理信息資源,必須構集團級數據中臺體系。數據中
臺體系包含數據中臺組織、大數據構架管理、主大數據管理、大數
據質量管理、大數據服務管理及大數據安全管理內容,這些內容既
有機結合,又相互支撐。
(1)數據應用效率問題
自助BI與可視化分析:以產品化的方式降低數據獲取、數據分
析、數據應用的成本,解決數據響應周期長、開發(fā)成本高、運營效
率低問題
能力要求:集成數據建模、自助分析、數據可視化、數據治理、
智能分析的一站式數智化決策分析平臺,數據開發(fā)專注數倉模型建
設,提供健全的模型、完善的資產元數據信息后,業(yè)務拖拽式、可
第15頁
視化的數據查詢和分析,不需要數據開發(fā)介入。針對需要周期性使
用的數據,可以保存成可視化Dashboard,自助進行可視化報表減
少,釋放接口和前端開發(fā)人力。比如:QuickBI、觀遠、帆軟BI、
tableau等
智能營銷平臺①MP):基于大數據計算和數據挖掘技術,構建用
戶畫像標簽體系,用戶圈選、精細化分層,進行差異化運營和營銷
觸達,提升運營R0L業(yè)務同學可基于平臺實現從人群圈選、場景構
建、觸達投放、效果回收的閉環(huán),同時,基于算法挖掘標簽及模型
推薦的人群組合,從基于人的經驗運營,到基于大數據算法推薦的
智能運營。
(2)數據資產建設與治理問題
21年云棲大會,阿里云數據中臺負責人強調,要在場景的驅動
下,把數據中臺的資產模塊做的更厚實。
第16頁
業(yè)務場.福隹TATSttESFSSifi
?
數酬6%總線(DCwrvlce)
決分析數鞫化應用
指標A?
數憲AB號
DCsovIce
數注可取化APIAPIKS
全
鏈
ME集
路
血
緣
慢生集市
知城交會0域際品域ESM
OneModel
數據流向
目標:提供數據資產建設、資產管理與治理的完整產品方案,
通過數據資產化管理和共享流程提高數據復用性,減少重復開發(fā)成
本,基于完善的監(jiān)控覆蓋保障數據質量,并周期性的盤點、治理資
產,達到降本的目標。
數據地圖:通過業(yè)務域、主題、標簽、字段元數據等信息,幫
助用戶快速檢索到目標數據,基于條件過濾或自助搜索,“逛數據”,
“用數據”。
數據質量監(jiān)控:圍繞“準確性、一致性、及時性、唯一性、完
整性”等標準維度,提供配置化的質量監(jiān)控規(guī)則,對數據表數據量、
字段值進行監(jiān)控覆蓋,從源頭及時發(fā)現數據問題并加以干預,保障
數據質量。
第17頁
數據血緣:數據入湖到輸出應用經過多個環(huán)節(jié),上游數據問題
如何快速通知下游,下游數據邏輯排查如何向上追溯,以及數據治
理表或路徑下線,如何評估下游的影響并通知,都依賴于全鏈路數
據血緣的建設??梢哉f,完善的血緣功能,可以極大提高數據開發(fā)
的工作效率
成本優(yōu)化:數據有自己的生命周期,比如活動期間的數據監(jiān)控
報表,活動下線后,報表可以下線釋放資源。成本優(yōu)化提供高耗任
務、小文件、冷數據等不同治理維度的指標,及治理目標,從資產
健康度評估維度,指導數據開發(fā)人員主動進行成本優(yōu)化、數據治理,
系統(tǒng)層面具備治理目標檢測、一鍵治理、數據回收、徹底刪除等治
理功能,并且可以基于固化的治理規(guī)則,進行系統(tǒng)自動化治理。
(3)數據開發(fā)流程的效率問題
目標:提供異構數據源數據同步可視化工具,通過源和目標參
數配置實現數據入湖、入倉,以及存儲介質的轉換,降低人肉腳本
處理帶來的風險和維護成本。建設統(tǒng)一的數據開發(fā)平臺,數據開發(fā)
只需要關注數據處理邏輯,無需關注集群資源、任務調度,通過配
置化的方式進行依賴關系配置,及任務運行周期,快速進行數據回
溯、任務重啟、停止
數據集成:業(yè)務數據庫、操作日志、狀態(tài)變更消息等數據源接
入數據中心,如Biglog同步、MySQL庫表訂閱、Kakfa數據落HDFS
第18頁
等。數據經過實時或離線ETL后,數據集成再將數據輸入CK、Hbase、
ES等供業(yè)務端應用
離線開發(fā)平臺:批數據處理,一般為T+1或小時級的準實時數
據,包括任務邏輯處理、依賴配置、調度配置、任務運維等功能。
實時開發(fā)平臺:流數據處理,以FlinkSQL、StreamSQL為主要
計算處理框架,實時處理消息隊列等各種流式數據,輸出實時報表、
實時接口推薦等服務
隨著批流技術組件的發(fā)展,批流一體化開發(fā)平臺的建設也陸續(xù)
在實踐中。
(4)數據服務快速輸出
有人也把數據中臺稱之為DAAS,即數據即服務,數據如何快速
輸出業(yè)務端,賦能產品創(chuàng)新。API服務統(tǒng)一管理,建立完善的應用血
緣關系,提供通用接口的配置化生成能力,降低對Java開發(fā)的依賴。
數據服務管理平臺:數據中臺思想下,數據服務輸出是應用輸
出的最主要形式,數據服務管理平臺一方面要具備將數據資產自助
配置化輸出的能力,即數倉清洗好的數據模型,數據開發(fā)或業(yè)務人
員可以通過入參、出參的可視化配置生成API接口,不需要接口開
發(fā)介入。同時也要把API資產化管理,API接口文檔、應用調用情
況做到可追蹤、可監(jiān)控。
第19頁
4.1大數據模型
大數據模型是大數據構架中重要一部分,包括概念大數據模型
和邏輯大數據模型,是數據中臺的關鍵、重點。理想的大數據模型
應該具有非冗余、穩(wěn)定、一致、易用等特征。邏輯大數據模型能涵
蓋整個集團的業(yè)務范圍,以一種清晰的表達方式記錄跟蹤集團單位
的重要大數據元素及其變動,并利用它們之間各種可能的限制條件
和關系來表達重要的業(yè)務規(guī)則。大數據模型必須在設計過程中保持
統(tǒng)一的業(yè)務定義。為了滿足將來不同的應用分析需要,邏輯大數據
模型的設計應該能夠支持最小粒度的詳細大數據的存儲,以支持各
種可能的分析查詢。同時保障邏輯大數據模型能夠最大程度上減少
冗余,并保障結構具有足夠的靈活性和擴展性
4.2大數據生命周期
一般包括大數據生成及傳輸、大數據存儲、大數據處理及應用、
大數據銷毀四個方面。
(1)大數據生成及傳輸
大數據應該能夠按照大數據質量標準和發(fā)展需要產生,應采取
措施保證大數據的準確性和完整性,業(yè)務系統(tǒng)上線前應該進行必要
的安全測試,以保證上述措施的有效性。對于手工流程中產生的大
數據在相關制度中明確要求,并通過事中復核、事后檢查等手段保
第20頁
證其準確性和完整性。大數據傳輸過程中需要考慮保密性和完整性
的問題,對不同種類的大數據分別采取不同的措施防止大數據泄漏
或大數據被篡改。
(2)大數據存儲
這個階段除了關注保密性、完整性之外,更要關心大數據的可
用性,對于大部分大數據應采取分級存儲的方式,不僅存儲在本地
磁盤上,還應該在磁帶上,甚至遠程復制到磁盤陣列中,或者采用
光盤庫進行存儲。對于存儲備份的大數據要定期進行測試,確保其
可訪問其大數據完整。大數據的備份恢復策略應該由大數據的責任
部門或責任人負責制定,信息化管理部門可以給予相應的支持。同
時還需要注意因為部門需要或故障處理的需要,可能對大數據進行
修改,必須在大數據管理辦法中明確大數據修改的申請審批流程,
審慎對待后臺大數據修改。
(3)大數據處理和應用
信息化相關部門需要對大數據進行分析處理,以挖掘出對于管
理及業(yè)務開展有價值的信息,為保證過程中大數據的安全性,一般
應采用聯機處理,系統(tǒng)只輸出分析處理的結果。但是實際中,因為
相關大數據分析系統(tǒng)建設不到位,需要從大數據庫中提取大數據后
再對大數據進行必要的分析處理,在這個過程中就需要關注大數據
提取操作是否可能對大數據庫造成破壞、提取出的大數據在交付給
第21頁
分析處理人員的過程中其安全性是否會降低、大數據分析處理的環(huán)
境安全性等等。
(4)大數據銷毀
這個階段主要涉及大數據的保密性。應明確大數據銷毀的流程,
采用必要的工具,大數據的銷毀應該有完整的記錄。尤其是對于需
要送出外部修理的存儲設備,送修之前應該對大數據進行可靠的銷
毀。
4.3大數據標準
大數據標準是集團單位建立的一套符合自身實際,涵蓋定義、
操作、應用多層次大數據的標準化體系。
大數據標準的建立是集團單位信息化、數字化建設的一項重要
工作,行業(yè)的各類大數據必須遵循一個統(tǒng)一的標準進行組織,才能
構成一個可流通、可共享的信息平臺。
數據中臺對標準的需求可以劃分為兩類,即基礎性標準和應用
性標準。前者主要用于在不同系統(tǒng)間,形成信息的一致理解和統(tǒng)一
的坐標參照系統(tǒng),是信息匯集、交換以及應用的基礎,包括大數據
分類與編碼、大數據字典、數字地圖標準;后者是為平臺功能發(fā)揮
所涉及的各個環(huán)節(jié),提供一定的標準規(guī)范,以保證信息的高效匯集
和交換,包括元大數據標準、大數據交換技術規(guī)范、大數據傳輸協(xié)
議、大數據質量標準等。
第22頁
(1)大數據分類與編碼
大數據分類與編碼標準是信息化建設中標準化的一項基礎工作,
該類標準規(guī)定平臺匯集、交換相關信息統(tǒng)一的分類系統(tǒng)和排列順序
以及編碼規(guī)則,目的是在不同系統(tǒng)和用戶之間建立交通大數據的一
致參照,對提高大數據采集、處理和大數據交換效率具有重要作用。
大數據分類與編碼標準的制定將有力推進平臺標準化及交通信息化
建設標準化的進程。
(2)大數據字典
針對實際需求,定義大數據集,建立各個領域的大數據字典,
規(guī)范大數據概念和大數據定義。在此基礎上,形成完備的集團單位
大數據集和大數據字典。
(3)元大數據標準
元大數據標準是描述大數據資源的具體對象時所有規(guī)則的集合,
它包括了完整描述一個具體大數據對象時所需要的大數據項集合。
針對各種信息資源分別制定適當的元大數據標準,可為信息的管理、
發(fā)現和獲取提供一種實際而簡便的方法,從而提高大數據交換效率。
(4)大數據交換標準
為了保證大數據共享和交換的順利實現,必須明確定義和規(guī)范
大數據交換的相關標準。大數據交換的標準規(guī)范是集團單位綜合信
息平臺的核心標準。其中應當包括大數據交換內容、大數據交換格
第23頁
式、大數據傳輸方式、各類中心間大數據接口的標準化等方面。
(5)大數據質量標準
由于大數據采集任務通常由其他二級平臺完成,數據中臺平臺
的標準方法主要集中在大數據的加工和管理上。應該重點開發(fā)的一
個領域是大數據質量控制方法。應當從三個方面對大數據質量方法
進行研究:“壞大數據”或“不可靠大數據”的識別,錯誤大數據
的編輯方法,以及缺少值的處理。
4.4主大數據
主大數據管理要做的就是從各部門的多個業(yè)務系統(tǒng)中整合最核
心的、最需要共享的大數據(主大數據),集中進行大數據的清洗和
豐富,并且以服務的方式把統(tǒng)一的、完整的、準確的、具有權威性
的主大數據傳送給集團單位范圍內需要使用這些大數據的操作型應
用系統(tǒng)和分析型應用系統(tǒng)。
主大數據管理的信息流應為:
1)某個業(yè)務系統(tǒng)觸發(fā)對主大數據的改動;
2)主大數據管理系統(tǒng)將整合之后完整、準確的主大數據傳送給
所有有關的應用系統(tǒng)
3)主大數據管理系統(tǒng)為決策支持和大數據倉庫系統(tǒng)提供準確
的大數據源。
因此對于主大數據管理要考慮運用主大數據管理系統(tǒng)實現,主
第24頁
大數據管理系統(tǒng)的建設,要從建設初期就考慮整體的平臺框架和技
術實現。
4.5大數據質量
大數據質量不高將影響大數據倉庫應用程度不高。低下的大數
據質量往往造成開發(fā)出來的系統(tǒng)與用戶的預期大相徑庭,大數據質
量關系建設有關分析型信息系統(tǒng)成敗,同時大數據資源是集團單位
的戰(zhàn)略資源,合理有效的使用正確的大數據能指導集團單位做出正
確的決策,提高省綜合競爭力。不合理的使用不正確的大數據(即
差的大數據質量)可導致決策的失敗,正可謂差之毫厘、謬以千里。
大數據質量管理包含對大數據的絕對質量管理、過程質量管理。
絕對質量即大數據的真實性、完備性、自治性是大數據本身應具有
的屬性。過程質量即使用質量、存儲質量和傳輸質量,大數據的使
用質量是指大數據被正確的使用。再正確的大數據,如果被錯誤的
使用,就不可能得出正確的結論。大數據的存貯質量指大數據被安
全的存貯在適當的介質上。所謂存貯在適當的介質上是指當需要大
數據的時候能及時方便的取出。大數據的傳輸質量是指大數據在傳
輸過程中的效率和正確性。
高質量的交通運輸行業(yè)大數據至少有如下幾項要求:
一是正確性,在轉換、分析、存儲、傳輸、應用流程中不存在
錯誤;
第25頁
二是完整性,大數據庫應用或要求的所有記錄、字段都存在;
三是一致性,體現在整個大數據庫的定義和維護方面,確保大
數據在使用的整個過程中是一致的;
四是時效性,衡量指標是在指定的大數據與真實的業(yè)務情況同
步的時間容忍度內,即指定的更新頻度內,及時被刷新的大數據的
百分比;
五是可靠性,提供大數據的大數據源必須能夠可靠穩(wěn)定地提供
大數據。
大數據質量管理的規(guī)劃和實施包括以下內容:
一是大數據質量管控體系的建立,包括大數據質量的評估體系,
定期評估大數據質量狀況;
二是在部門各個應用系統(tǒng)中的落實,包括每個應用系統(tǒng)中的大
數據質量檢查等;
三是在最開始建立大數據質量管理系統(tǒng)的時候,借助數據中臺
平臺上,通過建立大數據質量管理的規(guī)則來集中化地建立大數據質
量管理系統(tǒng),發(fā)現問題并持續(xù)改進;
四是大數據質量管理與業(yè)務稽核的結合,通過業(yè)務規(guī)則的稽核
來發(fā)現大數據質量深層次的問題,將大數據質量與業(yè)務一線結合起
來,使業(yè)務人員對大數據質量問題有更加清晰和明確的認識。
完善的大數據質量管理是保障各項數據中臺工作能夠得到有效
第26頁
落實,達到大數據準確、完整的目標,并能夠提供有效的增值服務
的重要基礎。
4.6大數據服務
大數據整理最終目的就是要服務于各部門單位、人員等,能更
準確更快更方便的服務是大數據服務管理的目標。
大數據服務管理是指針對內部積累多年的大數據,研究如何能
夠充分利用這些大數據,分析行業(yè)業(yè)務流程優(yōu)化業(yè)務流程。大數據
使用的方式通常包括對大數據的深度加工和分析,包括通過各種報
表、工具來分析運營層面的問題,還包括通過大數據挖掘等工具對
大數據進行深度加工,從而更好的管理者服務。通過建立統(tǒng)一的大
數據服務平臺來滿足針對跨部門、跨系統(tǒng)的大數據應用。通過統(tǒng)一
的大數據服務平臺來統(tǒng)一大數據源,變多源為單源,加快大數據流
轉速度,提升大數據服務的效率。
4.7大數據安全
由于集團單位的重要且敏感信息大部分集中在應用系統(tǒng)中,大
數據安全更是至關重要。如何保障大數據不被泄露和非法訪問,是
非常關鍵的問題。大數據安全管理主要解決的就是大數據在保存、
使用和交換過程中的安全問題。
大數據安全管理主要體現在以下六個方面:
第27頁
一是大數據使用的安全性,包括基礎大數據的保存、訪問和權
限管理;
二是大數據隱私問題,系統(tǒng)中采集的證件號碼、銀行賬號等信
息在下游分析系統(tǒng)和內部管理系統(tǒng)中,是否要進行加密,以避免大
數據被非法訪問;
三是訪問權限統(tǒng)一管理,包括單點登錄問題及用戶名、大數據
和應用的訪問授權統(tǒng)一管理;
四是大數據安全審計,為大數據修改、使用等環(huán)節(jié)設置審計方
法,事后進行審計和責任追究;
五是制度及流程建立,逐步建立大數據安全性的管理辦法、系
統(tǒng)開發(fā)規(guī)范、大數據隱私管理辦法及相應的應用系統(tǒng)規(guī)范、在管理
決策和分析類系統(tǒng)中的審計管理辦法等;
六是應用系統(tǒng)權限的訪問控制,建立集團級權限管理系統(tǒng),增
加數字水印等技術在應用系統(tǒng)中的使用。
5.數據中臺保障機制
5.1制度章程
5.1.1規(guī)章制度
數據中臺章程類似于企業(yè)的公司條例。該章程闡明數據中臺的
主要目標、相關工作人員、職責、決策權利和度量標準。
具體可參見附件大數據管理規(guī)范
第28頁
5.1.2管控辦法
管控辦法是基于規(guī)章制度與工具的結合,可落地的操作的辦法。
具體可參見附件大數據質量評估辦法
5.1.3考核機制
考核是是保障制度落實的根本,建立明確的考核制度,實際操
作中可根據集團單位情況,建立相應的針對數據中臺方面的考核辦
法,并與個人績效相關聯??蓞⒖脊芾韺W中相關考核、績效管理相
關部分。
對于數據中臺的考核,可見下圖進行理解:
執(zhí)行是管控體系落地的關鍵
業(yè)務梳理
以縝效的手段促1MS
管理,將數據生產者、使用者.管
理者海有者關翅來,形成T
可持續(xù)有效執(zhí)行的執(zhí)行體系,保障
持續(xù)的高數據質量
o糠理核心業(yè)務流.數據流
0制定數據管控指標(利麗準)
o以標準對數據進行質量探套.處理.
分析
0按規(guī)則對數據流進預魯
OSW!誦質鍛敗據,形成數據中
v心,實現共享、分發(fā)、觸
o以績效手段促迸.保障數據管
控機制持續(xù)有效運行
第29頁
M雌
考核又掩數據負責人
發(fā)生數據質.考橇標準
月35扣分項
例1.發(fā)現f數據題■崛01分;
2.依此類推,直至本項指標權重扣完為止;
考核對象數據負費人
考核標準:
1.數據質量何題影響30%以下(含30%)
信息系統(tǒng),扣5分;
數據質量問題2,數據質量問題影響30%~70%(含70%)
影響范網月25扣分項
信息系統(tǒng),捫15分;
3.數據質量何期影響70%|壯信息系統(tǒng),
扣25分;
4.按月統(tǒng)計,以單次《圖質量問題影響范
圍最大的數據為準;
考核對象數據ft費人
嚴重程度寫極權準以造成的邑濟損失為考核依據,年扣分項
依企業(yè)情況自定義;人工考倭
考核對象:數據負責人
數據質■問題
數據質量問題考候標?:
的處理個數和月35加分項
1.在規(guī)定時間內處理完成fHBSg?*問
K,加1分;否W不麗;
考則象數據管理員
問題預警、分;折現數據質量問題時,在規(guī)定時間段
發(fā)
內,及時預警并通知相關人員處理,不扣分;
5W,扣3分;
5.2數據中臺組織
5.2.1組織架構
有效的組織機構是項目成功的有力保證,為了達到項目預期目
標,在項目開始之前對于組織機構及其責任分工做出規(guī)劃是非常必
要的,數據中臺項目管理組織建議宜采用如圖所示的組織結構:
第30頁
數據中臺委員會由集團公司的高層領導者組成。委員會定義數
據中臺愿景和目標;組織內跨業(yè)務部門和IT部門進行協(xié)調;設置
數據中臺計劃的總體方向;在發(fā)生策略分歧時進行協(xié)調。此委員會
也將包含來自部門或子公司的領導代表,以及來自各單位視大數據
為機構資產的信息科技部門的代表。這些高層管理人員是數據中臺
計劃的所有擁護者,確保在整個組織內獲得支持。
數據中臺工作組是組織內委員會下面的下一個級別。工作組執(zhí)
第31頁
行數據中臺計劃。工作組負責監(jiān)督大數據管理員工作。數據中臺工
作組由數據中臺委員會中各局領導主持。
每各業(yè)務部門有至少一位業(yè)務分析員,信息科技部門設置大數
據質量分析員、大數據管理員、集成開發(fā)人員。各工作人員負責本
部門大數據的質量,履行職責,解決具體的問題。
5.2.3組織職責
根據大數據管理工作的實際需要,在業(yè)務管理部門、技術管理
部門和業(yè)務應用部門確定各工作人員的職責。
數據中臺委員會的職責范圍:
1)從戰(zhàn)略角度來統(tǒng)籌和規(guī)劃,對大數據資產和系統(tǒng)進行清理,
確定數據中臺的范圍;明確大數據源的出處、使用和管理的流程及
職責;
2)明確數據中臺的組織、功能、角色和職責;
3)負責各工作組成員的培訓工作;
4)負責審查各工作小組的目標、原則,批準大數據管理的相關
制度、標準及流程;
5)負責確定數據中臺的工具、技術和平臺;
6)負責制定數據中臺的評估指標、方法。
數據中臺工作小組,其主要工作職責是:
負責數據中臺的牽頭,組織、指導和協(xié)調本單位的數據中臺工
第32頁
作;
綜合數據中臺管控辦法、數據中臺考核機制等有關規(guī)章制度的
牽頭制定、修改等;
負責大數據的分析整理并出具大數據指標報告;
負責大數據的監(jiān)測預測工作;
建立大數據沖突的處理流程和大數據變更控制流程。
負責對基礎大數據質量的檢測、發(fā)布、考核和清理完善工作。
工作組成員:業(yè)務分析員、大數據質量分析員、大數據管理員、
集成開發(fā)員
這些不同的角色在數據中臺過程中承擔著彼此不同,而又相輔
相成的職責。其中集成開發(fā)人員在數據中臺流程中需要肩負起大數
據訪問、驗證大數據結構、驗證大數據、交付大數據以及大數據庫
/知識庫的構建等角色,因此他們的工作包括:
訪問及交付相應大數據給業(yè)務用戶
提高生產力和性能
最大化減少異常/出錯的影響
開發(fā)和完善技術最佳實踐
大數據質量分析員在數據中臺流程中負責大數據的剖析、清洗
匹配合并等。工作包括:
為開發(fā)人員定義大數據規(guī)格及標準
第33頁
為機構有效的追蹤大數據質量問題
實施被業(yè)務人員和大數據管理員定義正確的大數據質量規(guī)
則
不間斷的監(jiān)控大數據質量水平及問題
業(yè)務分析人員在數據中臺流程中負責定義大數據的轉換規(guī)則,
工作包括:
與需求開發(fā)人員協(xié)作,正確捕獲和解析業(yè)務需求
與開發(fā)人員和大數據管理員協(xié)作,為業(yè)務用戶縮短大數據產
生價值的時間
大數據管理員需要定義引證大數據,并管理元大數據,工作包
括:
保證大數據的質量、正確、完整、一致、審計及安全性
定義引證/參考大數據
為組織機構大數據實體給出正確業(yè)務定義
為組織機構解決混淆和有爭論的大數據定義
5.3流程管理
流程管理包括流程目標、流程任務、流程分級,根據數據中臺
的內容,建立相應流程,且遵循本單位數據中臺的規(guī)則制度。實際
操作中可結合所使用的數據中臺工具,與數據中臺工具供應商進行
第34頁
協(xié)商,建立符合集團公司的流程管理。
5.4IT技術應用
5.4.1支撐平臺
現市場上關于數據中臺平臺存在不同的成熟產品,但在功能實
現上大致相同,具體可參加下圖了解。
數據治理平臺構成與定位
提供平臺
溝道栗遺
分析類應
數維平臺數案集巾
第35頁
對數據平臺業(yè)務的支持一元數據
效據源系統(tǒng)
敏據揄取
元敗據管
理員
?代詢數據f臺相關元數由?敷保殳更影響分析
應用開發(fā)苦撇,為開發(fā)用用柒供弁考元效州干系統(tǒng)
?數據同應血修分析
?數據變更影響評估申請
數卅艱務
對數據平臺業(yè)務的支持一數據質量
?竹"數粼腦量向虺
好健出先善建議
鹿用開發(fā)畬
?定義槍核需求與規(guī)則
?分析數據平臺數燃質量
忑、?發(fā)現、發(fā)布數州檢核問題
?廣新八機構特定系
業(yè)務部門
統(tǒng)敬州展量數把質越管
?提出業(yè)務數據質量敏期質量理員
檢情需求檢檜
第36頁
對數據平臺業(yè)務的支持-數據服務
a?敏格平價服務中諳
■
段用開發(fā)者
?■供敷維平臺服務
?茲州平臺*務申請
業(yè)務覬門?)敝州¥介有效溝加數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度水泥電桿生產設備技術升級改造合同3篇
- 2024年獨家租房代理合同
- 2024版屋頂綠化草皮節(jié)能保溫與美化合同模板3篇
- 2024企業(yè)宣傳片制作與知識產權保護合同3篇
- 2024年數據安全審計與保密協(xié)議3篇
- 2024年版廣州物業(yè)租賃合同
- 2024年新版房屋買賣合同9篇
- 2024年版人防設備安裝項目協(xié)議模板一
- 2024年度合同詐騙罪訴訟代理委托合同范本2篇
- 2024年排水工程結算審計服務合同規(guī)范文本2篇
- 學生勸返復學實施方案
- 收割機購銷合同
- 醫(yī)務人員醫(yī)德醫(yī)風誠信 檔 案(模板)
- 膿毒癥休克中西醫(yī)詳解
- 小兔子乖乖ppt課件.ppt
- 常壓矩形容器設計計算軟件
- 交流變換為直流的穩(wěn)定電源設計方案
- PR6C系列數控液壓板料折彎機 使用說明書
- 鋼結構工程環(huán)境保護和文明施工措施
- 物業(yè)管理業(yè)主意見征詢表
- 管道定額價目表
評論
0/150
提交評論