大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)_第1頁(yè)
大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)_第2頁(yè)
大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)_第3頁(yè)
大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)_第4頁(yè)
大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)資產(chǎn)管理平臺(tái)設(shè)計(jì)與研發(fā)技術(shù)創(chuàng)新,變革未來(lái)目 錄Contents背景概述 (06P)01關(guān)鍵挑戰(zhàn) (04P)02詳細(xì)介紹 (23P)03整體總結(jié) (01P)042020數(shù)據(jù)倉(cāng)庫(kù) DataWarehouse 1991大數(shù)據(jù)平臺(tái) BigData 2012數(shù)據(jù)中樞? 云數(shù)據(jù)倉(cāng)庫(kù)? LakeHouse? DataOps? 2019數(shù)據(jù)中臺(tái) DataLake 2015數(shù)據(jù)處理技術(shù)演進(jìn)與行業(yè)趨勢(shì)數(shù)據(jù)資產(chǎn)定義:一切皆數(shù)據(jù),數(shù)據(jù)是一切廣義概念企業(yè)生產(chǎn)經(jīng)營(yíng)中產(chǎn)生的信息及其載體都屬于數(shù)據(jù)資產(chǎn)。狹義概念可確定歸屬權(quán),且能被交易、使用的 數(shù)據(jù)。數(shù)據(jù)資產(chǎn)哪些是數(shù)據(jù)資產(chǎn)?各業(yè)務(wù)域和數(shù)據(jù)域在數(shù)據(jù)生產(chǎn)消費(fèi)過(guò)程中形成的數(shù)據(jù)

2、沉淀及其載體都是數(shù)據(jù)資產(chǎn)。存儲(chǔ)過(guò)程表KPI報(bào)表標(biāo)簽函數(shù)主機(jī)集群頁(yè)面應(yīng)用系統(tǒng)2020指標(biāo)模型ETL任務(wù)字段視圖數(shù)據(jù)庫(kù)數(shù)據(jù)過(guò)程業(yè)務(wù)設(shè)備大數(shù)據(jù)資產(chǎn)管理平臺(tái)邊界:數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)平臺(tái)基礎(chǔ)設(shè)施(基礎(chǔ)算力+大數(shù)據(jù)&微服務(wù)&容器云&云原生等技術(shù)底座)數(shù)據(jù)中臺(tái)數(shù)據(jù)中臺(tái)數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)治理體系數(shù)據(jù)科學(xué)能力C?2020A?B?數(shù)據(jù)資產(chǎn)管理 VS 數(shù)據(jù)治理 VS DataOps ?數(shù)據(jù)中臺(tái)落地實(shí)踐過(guò)程中的加速器,數(shù)據(jù)平臺(tái)開(kāi)發(fā)運(yùn)維和數(shù)據(jù)治理活動(dòng)實(shí)施的潤(rùn)滑劑,數(shù)據(jù)科學(xué)建模分析和數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)管理價(jià)值化的催化劑。關(guān)于數(shù)據(jù)資產(chǎn)管理整體框架與方法論理論基石數(shù)據(jù)治理項(xiàng)目實(shí)施總體原則數(shù)據(jù)管理體系數(shù)據(jù)質(zhì)量?jī)?yōu)化戰(zhàn)略高度

3、:制定公司 數(shù)據(jù)治理基本原則、 管理辦法、文化導(dǎo)向合規(guī)運(yùn)營(yíng):DS+DTS/ DCT多元業(yè)務(wù)安全要求監(jiān)督審計(jì):制定各業(yè)務(wù) 條線、組織監(jiān)督機(jī)制和 審計(jì)要求建立企業(yè)數(shù)據(jù)戰(zhàn)略規(guī)范數(shù)據(jù)管理制度支撐數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì) 量、數(shù)據(jù)安全、數(shù)據(jù)模 型、生命周期、數(shù)據(jù)應(yīng) 用等各領(lǐng)域治理要求明確數(shù)據(jù)質(zhì)量管理目標(biāo)明確對(duì)質(zhì)量監(jiān)控體系、 檢查制度、整改機(jī)制以 及考評(píng)體系的建設(shè)要求持續(xù)提升能力開(kāi)放業(yè)務(wù) 租戶運(yùn)營(yíng)水平數(shù)據(jù)智能科技 服務(wù)專家深挖運(yùn)營(yíng)商數(shù)據(jù)服務(wù)內(nèi)在價(jià)值 轉(zhuǎn)型DS+DTS/DCT多元業(yè)務(wù) 升級(jí)生態(tài)營(yíng)運(yùn)能力組織架構(gòu)體系架構(gòu)要求:職責(zé)清晰、多層次、相互銜接落實(shí)數(shù)據(jù)認(rèn)責(zé)機(jī)制培育數(shù)據(jù)驅(qū)動(dòng)文化建立治理溝通渠道建立評(píng)價(jià)與考核制度D

4、AMA-DMBOKCMMI-DMMDCMM找癥狀, 明確目標(biāo)理數(shù)據(jù), 現(xiàn)狀分析數(shù)據(jù)治理 成熟度評(píng)估數(shù)據(jù)質(zhì)量 根因分析業(yè)務(wù)影響及實(shí)施優(yōu)先級(jí)評(píng)估12346制定數(shù)據(jù)治理行動(dòng)路線與計(jì)劃7監(jiān)控評(píng)估數(shù)據(jù) 治理實(shí)施效果5總體方針:以服務(wù)公司愿景為導(dǎo)向,以問(wèn)題為切入點(diǎn),切實(shí)解決業(yè)務(wù)問(wèn)題??蚣芊椒ㄕ?020如何制定數(shù)據(jù)戰(zhàn)略? 收益、安全、質(zhì)量、架構(gòu)、流程、效率?聯(lián)通大數(shù)據(jù)資產(chǎn)管理平臺(tái)能力架構(gòu)-全景圖模數(shù)據(jù)可視化報(bào)表大規(guī)模即席分析數(shù)據(jù)知識(shí)圖譜數(shù)據(jù)敏捷探索能力開(kāi)放門戶敏 捷 項(xiàng) 目 管 理開(kāi) 發(fā) 運(yùn) 維 一 體 化持 續(xù) 集 成 與 交 付數(shù)據(jù) 追蹤 溯源數(shù)據(jù) 安全 網(wǎng)關(guān)安 全 保 障 體 系數(shù)據(jù) 出口 審計(jì)數(shù)據(jù)

5、脫敏 系統(tǒng)應(yīng)用資產(chǎn)資產(chǎn)總覽資產(chǎn)注冊(cè)資產(chǎn)服務(wù)資產(chǎn)安全資產(chǎn)評(píng)估管理資產(chǎn)價(jià)值資產(chǎn)運(yùn)營(yíng)資產(chǎn)治理資產(chǎn)運(yùn)維資產(chǎn)盤點(diǎn)數(shù)據(jù)開(kāi)放平臺(tái)數(shù)據(jù)計(jì)算治理CMDB成本核算數(shù)據(jù)租戶自建數(shù)據(jù)存儲(chǔ)治理ITSM價(jià)值評(píng)估數(shù)據(jù)生態(tài)合作數(shù)據(jù)質(zhì)量治理統(tǒng)一監(jiān)控?cái)?shù)據(jù)大 規(guī) 模 集 群 治 理服務(wù)行為興趣分析平臺(tái)位置時(shí)序洞察平臺(tái)關(guān)系圖譜挖掘平臺(tái)數(shù)據(jù)管理數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)指標(biāo)管理數(shù)據(jù)API網(wǎng)關(guān)數(shù)據(jù)地圖門戶數(shù)據(jù)能力開(kāi)放數(shù)據(jù) 開(kāi)發(fā) 運(yùn)維 治理 平臺(tái)數(shù)據(jù)集成/采集交換數(shù)據(jù)開(kāi)發(fā)過(guò)程數(shù)據(jù)治理管控?cái)?shù)據(jù)運(yùn)維中心實(shí)時(shí)流批融合敏捷數(shù)據(jù)建模元數(shù)據(jù)采集與存儲(chǔ)數(shù)據(jù)平臺(tái)監(jiān) 控多租戶安全隔離可視化數(shù)據(jù)調(diào)度數(shù)據(jù)生命周期管理智能運(yùn)維預(yù)警 多源異構(gòu)數(shù)據(jù)采集數(shù)據(jù)平臺(tái)開(kāi)發(fā)

6、IDEAI輔助數(shù)據(jù)治理故障自愈修 復(fù)基礎(chǔ)FlinkHiveElasticSearch平臺(tái)數(shù)據(jù)源B域數(shù)據(jù)O域數(shù)據(jù)各省數(shù)據(jù)三方數(shù)據(jù)其他數(shù)據(jù)2020聯(lián)通大數(shù)據(jù)資產(chǎn)管理平臺(tái)價(jià)值地圖運(yùn)維域運(yùn)營(yíng)域開(kāi)發(fā)域治理域安全域數(shù)據(jù)腳本標(biāo)準(zhǔn)化 數(shù)據(jù)開(kāi)發(fā)平臺(tái) 數(shù)據(jù)云平臺(tái)數(shù)據(jù)生產(chǎn)監(jiān)控大屏 數(shù)據(jù)運(yùn)維平臺(tái) 數(shù)據(jù)云平臺(tái)數(shù)據(jù)能力開(kāi)放平臺(tái) 數(shù)據(jù)多方安全計(jì)算 數(shù)據(jù)云平臺(tái)數(shù)據(jù)治理-疏整促 集群治理-巡山 數(shù)據(jù)云平臺(tái)2020Contents背景概述 (06P)01關(guān)鍵挑戰(zhàn) (04P)02詳細(xì)介紹 (23P)03整體總結(jié) (01P)04目 錄2020ODSDWDM面 向 應(yīng) 用面 向 分 析面 向 生 產(chǎn)DWDDWA指標(biāo)庫(kù)立方體輕度匯總核心

7、事件與實(shí)體數(shù)據(jù)采集展現(xiàn)視圖分析衍生實(shí)時(shí)標(biāo)準(zhǔn)化2020事件捕獲實(shí)時(shí)統(tǒng)計(jì)與分析圍繞批量與流式場(chǎng)景分離、業(yè)務(wù)規(guī)范統(tǒng)一、空間效率平衡等原則構(gòu)建分層分類大數(shù)據(jù)模型體系實(shí)時(shí)流式處理離線批處理數(shù)據(jù)資產(chǎn)管理平臺(tái)關(guān)鍵挑戰(zhàn)#1 搭建數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一平臺(tái)數(shù)據(jù)采集鏈路監(jiān)控?cái)?shù)據(jù)跨集群同步數(shù)據(jù)生命周期管理數(shù)據(jù)開(kāi)發(fā)&運(yùn)維數(shù)據(jù)ETL調(diào)度系統(tǒng)元數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)血緣分析數(shù)據(jù)質(zhì)量保障元數(shù)據(jù)&數(shù)據(jù)模型&數(shù)據(jù)元&數(shù)據(jù)標(biāo)準(zhǔn)概念對(duì)齊2020通用的商業(yè)化元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量工具的問(wèn)題數(shù)據(jù)資產(chǎn)管理平臺(tái)關(guān)鍵挑戰(zhàn)#2 實(shí)踐數(shù)據(jù)平臺(tái)治理管控?cái)?shù)據(jù)脫敏系統(tǒng)2020數(shù)據(jù)安全監(jiān)測(cè)與審計(jì)系統(tǒng)行為基線和用戶畫(huà)像系統(tǒng)數(shù)據(jù)追蹤溯源系統(tǒng)數(shù)據(jù)出口管控系統(tǒng)平臺(tái)統(tǒng)一訪問(wèn)控制和

8、審計(jì)系統(tǒng)數(shù)據(jù)資產(chǎn)管理平臺(tái)關(guān)鍵挑戰(zhàn)#2 實(shí)踐數(shù)據(jù)平臺(tái)治理管控?cái)?shù)據(jù)采集數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市B域數(shù)據(jù)數(shù)據(jù)采集交換數(shù)據(jù)源DM 全 流 程數(shù) 據(jù) 治理體 系數(shù)據(jù)標(biāo)準(zhǔn)接口文件規(guī)范接口數(shù)據(jù)模型倉(cāng)庫(kù)數(shù)據(jù)模型數(shù)據(jù)集市模型數(shù)據(jù)質(zhì)量編碼管理工單處理數(shù)據(jù)源編碼映射申請(qǐng)工單生成數(shù)據(jù)源側(cè)自檢文件稽核、記錄稽核分層數(shù)據(jù)稽核發(fā)布數(shù)據(jù)稽核全域關(guān)鍵數(shù)據(jù)抽樣質(zhì)量稽核數(shù)據(jù)元管理、標(biāo)準(zhǔn)業(yè)務(wù)術(shù)語(yǔ)、統(tǒng)一命名規(guī)范數(shù)據(jù)應(yīng)用ELS數(shù)據(jù) 服務(wù)T倉(cāng)庫(kù)編碼統(tǒng)一編碼更新發(fā)布S數(shù) 據(jù) 流 向數(shù)據(jù)調(diào)度文件偵測(cè)倉(cāng)庫(kù)數(shù)據(jù)加工流程調(diào)度集市流程調(diào)度采集流程調(diào)度應(yīng)用發(fā)布控制編碼稽核數(shù)據(jù)稽核流程調(diào)度申請(qǐng)工單處理問(wèn)題工單處理處理結(jié)果反饋元數(shù)據(jù)設(shè)備信息硬件信息指標(biāo)標(biāo)準(zhǔn)接口規(guī)范

9、倉(cāng)庫(kù)劃分實(shí)體對(duì)象業(yè)務(wù)管理編碼標(biāo)準(zhǔn)O域數(shù)據(jù)T數(shù)據(jù)資產(chǎn)管理平臺(tái)關(guān)鍵挑戰(zhàn)#3 探索數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)體系用戶畫(huà)像 標(biāo)簽體系 推薦系統(tǒng)能力開(kāi)放平 臺(tái)運(yùn)營(yíng)BI報(bào)表大數(shù)據(jù)產(chǎn)品數(shù)盾風(fēng)控?cái)?shù)贏洞察旅游大數(shù)據(jù)數(shù)睿廣告智慧足跡能力開(kāi)放平臺(tái)2020Contents背景概述 (06P)01關(guān)鍵挑戰(zhàn) (04P)02詳細(xì)介紹 (23P)03整體總結(jié) (01P)04目 錄2020數(shù)據(jù)資產(chǎn)管理平臺(tái)基本概述定位與目標(biāo):基于數(shù)據(jù)驅(qū)動(dòng)的理念,讓數(shù)據(jù)資產(chǎn)開(kāi)發(fā)、運(yùn)維、治理、運(yùn)營(yíng)過(guò)程更安全、敏捷、 精益、自動(dòng)化、服務(wù)化和智能化。借鑒DevOps持續(xù)集成與交付方法論,建立數(shù) 據(jù)治理基礎(chǔ)框架,實(shí)現(xiàn)數(shù)據(jù)采集、加工、運(yùn)維、 服務(wù)過(guò)程一站式、體系化、規(guī)范

10、化、透明化的 流水線管理模式,消除數(shù)據(jù)生命周期管理、數(shù) 據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等方面的隱患?;诖髷?shù)據(jù)集群健康評(píng)分機(jī)制,實(shí)現(xiàn)數(shù)據(jù)平 臺(tái)降本增效,從數(shù)據(jù)計(jì)算、存儲(chǔ)、調(diào)度、分析 挖掘等各個(gè)方面分析程序效能、數(shù)據(jù)資源冗余 畫(huà)像,確保數(shù)據(jù)平臺(tái)、模型和應(yīng)用的快速部署 與開(kāi)發(fā),整合各類數(shù)據(jù)處理框架,為上層數(shù)據(jù) 分析和智能化應(yīng)用提供高效的算力和算法支持。實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),建立數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)體系, 讓數(shù)據(jù)資產(chǎn)開(kāi)發(fā)、運(yùn)維、治理、能力開(kāi)放運(yùn)營(yíng) 過(guò)程更加安全、敏捷、精益、服務(wù)化和智能化。2020模塊1:數(shù)據(jù)集成平臺(tái)功能需求核心模塊1:數(shù)據(jù)采集交換平臺(tái)核心模塊2:數(shù)據(jù)工作流程調(diào)度核心模塊3:數(shù)據(jù)應(yīng)用代理程序定位與目標(biāo)

11、:把企業(yè)內(nèi)外部數(shù)據(jù)快速整合到一起,提供大數(shù)據(jù)平臺(tái)與生產(chǎn)應(yīng)用系統(tǒng)的雙向通信 能力,方便構(gòu)建數(shù)據(jù)開(kāi)發(fā)、運(yùn)維、治理、運(yùn) 營(yíng)閉環(huán)系統(tǒng)。2020模塊1:數(shù)據(jù)集成平臺(tái)產(chǎn)品設(shè)計(jì)基于運(yùn)營(yíng)商領(lǐng)域多年數(shù)據(jù)平臺(tái)建設(shè)經(jīng)驗(yàn)圖形化的數(shù)據(jù)流設(shè)計(jì)器可視化數(shù)據(jù)轉(zhuǎn)換功能跨地域多源異構(gòu)數(shù)據(jù)集成跨系統(tǒng)跨平臺(tái)統(tǒng)一調(diào)度自動(dòng)化任務(wù)調(diào)度機(jī)制節(jié)點(diǎn)級(jí)全方位實(shí)時(shí)監(jiān)控2020模塊1:數(shù)據(jù)集成平臺(tái)研發(fā)實(shí)踐高度分散的異構(gòu)的數(shù)據(jù)源數(shù)據(jù)大量分散在企業(yè)的不同業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫(kù)、甚至企業(yè)外部的第三方系統(tǒng)中; 數(shù)據(jù)源類型、結(jié)構(gòu)、模式不盡相同,必 須經(jīng)過(guò)采集、清洗與標(biāo)準(zhǔn)化才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。開(kāi)發(fā)腳本的復(fù)雜性(如接口機(jī)+Shell模式)數(shù)據(jù)加工過(guò)程一般通過(guò)執(zhí)行復(fù)雜冗長(zhǎng)晦

12、澀的腳本來(lái)完成, 要求開(kāi)發(fā)人員必須有較高的專業(yè)技能;數(shù)據(jù)加工過(guò)程的邏輯錯(cuò)誤、語(yǔ)法錯(cuò)誤也不容易捕捉;集群作業(yè)提交參數(shù)的合理性問(wèn)題。ETL調(diào)度流程編排問(wèn)題(運(yùn)營(yíng)商VS 互聯(lián)網(wǎng))數(shù)據(jù)處理的流程大量依賴各種腳本程序,難以理解與修改 維護(hù);數(shù)據(jù)處理流程經(jīng)常無(wú)法復(fù)用,缺乏統(tǒng)一管理;因?yàn)閿?shù)據(jù)斷傳、漏傳、補(bǔ)傳造成的數(shù)據(jù)重跑問(wèn)題突出。飛速增長(zhǎng)的數(shù)據(jù)量和非結(jié)構(gòu)化數(shù)據(jù)類型隨著5G+物聯(lián)網(wǎng)場(chǎng)景超大規(guī)模數(shù)據(jù)的輸入;數(shù)據(jù)持續(xù)不斷的到達(dá),數(shù)據(jù)集成應(yīng)當(dāng)具備PB級(jí)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理能力; 需要支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等不同數(shù)據(jù)類型。易用性 VS 功能完備性穩(wěn)定性 與 兼容性數(shù)據(jù)平臺(tái)的基礎(chǔ)模塊產(chǎn)品設(shè)計(jì)技術(shù)研發(fā)運(yùn)營(yíng)實(shí)踐20

13、20模塊2:數(shù)據(jù)開(kāi)發(fā)平臺(tái)功能需求核心模塊1:數(shù)據(jù)加工模型設(shè)計(jì)2020核心模塊2:數(shù)據(jù)腳本過(guò)程管理核心模塊3:數(shù)據(jù)生命周期管理定位與目標(biāo):支撐數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)加工腳本標(biāo)準(zhǔn)化,實(shí)現(xiàn)開(kāi)發(fā)、測(cè)試、上 線過(guò)程自動(dòng)化,保障數(shù)據(jù)模型與生 命周期管理標(biāo)準(zhǔn)落地。模塊2:數(shù)據(jù)開(kāi)發(fā)平臺(tái)產(chǎn)品設(shè)計(jì)標(biāo)準(zhǔn)化腳本模版規(guī)則基于企業(yè)數(shù)據(jù)治理標(biāo)準(zhǔn)化需求,形成數(shù)據(jù)加工腳本從生成、測(cè)試、審批、到部署的全流程管控統(tǒng)一的腳本執(zhí)行機(jī)器管控開(kāi)發(fā)腳本標(biāo)準(zhǔn)化創(chuàng)建腳本運(yùn)行測(cè)試自動(dòng)化部署上線審批環(huán)節(jié)2020模塊2:數(shù)據(jù)開(kāi)發(fā)平臺(tái)運(yùn)營(yíng)實(shí)踐數(shù)據(jù)開(kāi)發(fā)平臺(tái)與數(shù)據(jù)治理(從源頭治理)數(shù)據(jù)開(kāi)發(fā)平臺(tái)支撐數(shù)據(jù)治理文化落地,數(shù)據(jù)治理過(guò)程強(qiáng)調(diào) 組織、文化、工具、流程的全方

14、位協(xié)同,數(shù)據(jù)開(kāi)發(fā)平臺(tái)僅僅是數(shù)據(jù)治理工具體系的一部分。產(chǎn)線環(huán)境安全與便捷實(shí)用性的博弈(安全)為了保障產(chǎn)線環(huán)境下數(shù)據(jù)加工腳本執(zhí)行的安全性,平臺(tái)需要覆蓋腳本模板配置、腳本創(chuàng)建、審核、測(cè)試、部署上線的完整 流程,整體使用復(fù)雜度相對(duì)提升,需要配套的運(yùn)營(yíng)流程。IT墻、組織墻問(wèn)題(推廣成本)數(shù)據(jù)開(kāi)發(fā)平臺(tái)研發(fā)背景往往跟生產(chǎn)環(huán)境實(shí)際痛點(diǎn)相關(guān),涉 及組織較多,在向其他部門或項(xiàng)目組推廣時(shí),因不同組織績(jī)效目標(biāo)差異,通常會(huì)遇到不同程度的IT墻和部門組織墻問(wèn)題。從腳本標(biāo)準(zhǔn)化自動(dòng)化到在線IDE(一體化)企業(yè)各開(kāi)發(fā)團(tuán)隊(duì)的技術(shù)棧和開(kāi)發(fā)習(xí)慣差異較大;平臺(tái)腳本模板很難兼容所有團(tuán)隊(duì)的靈活需求;在線IDE需兼顧數(shù)據(jù)治理 標(biāo)準(zhǔn)落地和個(gè)性

15、化需求開(kāi)發(fā)的要求。產(chǎn)品設(shè)計(jì)技術(shù)研發(fā)運(yùn)營(yíng)實(shí)踐2020模塊3:元數(shù)據(jù)管理平臺(tái)功能需求核心模塊1:元數(shù)據(jù)采集核心模塊2:元數(shù)據(jù)分析核心模塊3:元數(shù)據(jù)應(yīng)用定位與目標(biāo):基于技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)的采集與分析, 實(shí)現(xiàn)數(shù)據(jù)血緣、影響分析和全鏈 分析,解決企業(yè)內(nèi)部數(shù)據(jù)資產(chǎn)統(tǒng) 一盤點(diǎn)和運(yùn)營(yíng)問(wèn)題。2020模塊3:元數(shù)據(jù)管理平臺(tái)產(chǎn)品設(shè)計(jì)資產(chǎn)發(fā)布元數(shù)據(jù)管理功能規(guī)劃和原則、元數(shù)據(jù)管理的統(tǒng)一方法多種數(shù)據(jù)源管控元數(shù)據(jù)變更稽核數(shù)據(jù)血緣數(shù)據(jù)地圖元數(shù)據(jù)獲取2020模塊3:元數(shù)據(jù)管理平臺(tái)運(yùn)營(yíng)實(shí)踐多種元數(shù)據(jù)采集方案的抉擇(MetadataAPI&公有云平臺(tái)的坑)針對(duì)不同數(shù)據(jù)源/集群的采集有多種方案,站在交付目標(biāo)、無(wú)侵入性

16、的角度考慮,綜合權(quán)衡好安全性、性能和擴(kuò)展性要求。元數(shù)據(jù)管理應(yīng)用作為內(nèi)部 推廣抓手(價(jià)值驅(qū)動(dòng))從數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)視圖、元數(shù)據(jù)檢索、元數(shù)據(jù)稽核、數(shù)據(jù)地圖、數(shù)據(jù)血緣、影響分析、全鏈分析、活性分析、數(shù)據(jù)價(jià) 值圖譜等應(yīng)用方向?qū)ふ覂?nèi)部推廣應(yīng)用的突破口。數(shù)據(jù)血緣分析準(zhǔn)確性、完整性、實(shí)用性由于企業(yè)數(shù)倉(cāng)存儲(chǔ)介質(zhì)、加工方式、調(diào)度手段多樣,在采集多種元數(shù)據(jù)后,整合血緣分析的困難度較高,建議定向?qū)χ付▓?chǎng)景進(jìn)行血緣分析。(HiveHBase: 跨庫(kù)跨集群跨源全鏈 路端到端分析)元數(shù)據(jù)稽核與數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量協(xié)同元模型管理、元數(shù)據(jù)屬性填充率、貫標(biāo)落地統(tǒng)計(jì)、生產(chǎn)環(huán)境最新版本與資產(chǎn)管理平臺(tái)、測(cè)試環(huán)境雙向稽核。(業(yè)務(wù)&IT協(xié)

17、同:自治文化)產(chǎn)品設(shè)計(jì)技術(shù)研發(fā)運(yùn)營(yíng)實(shí)踐2020模塊4:數(shù)據(jù)質(zhì)量平臺(tái)功能需求核心模塊1:數(shù)據(jù)源、數(shù)據(jù)對(duì)象、元數(shù)據(jù)分類管理核心模塊2:數(shù)據(jù)質(zhì)量檢測(cè)模型、方案、規(guī)則管理核心模塊3:數(shù)據(jù)質(zhì)檢任務(wù)調(diào)度、報(bào)告、流程管理定位與目標(biāo):針對(duì)數(shù)據(jù)進(jìn)行稽核來(lái)確保數(shù)據(jù)的質(zhì)量,覆蓋及時(shí)性、完整性、準(zhǔn)確性、一致性、唯一性 及合理性等,及各系統(tǒng)之間數(shù)據(jù)的統(tǒng)一性。建 立標(biāo)準(zhǔn)化度量系統(tǒng),方便系統(tǒng)性改進(jìn)質(zhì)量問(wèn)題。2020模塊4:數(shù)據(jù)質(zhì)量平臺(tái)產(chǎn)品設(shè)計(jì)跨地域多源異構(gòu)數(shù)據(jù)集成數(shù)據(jù)質(zhì)量方案管理數(shù)據(jù)質(zhì)量規(guī)則管理數(shù)據(jù)質(zhì)量模型管理數(shù)據(jù)源質(zhì)檢對(duì)象管理數(shù)據(jù)質(zhì)檢SQL看板數(shù)據(jù)質(zhì)量任務(wù)調(diào)度管理2020模塊4:數(shù)據(jù)質(zhì)量平臺(tái)運(yùn)營(yíng)實(shí)踐數(shù)據(jù)質(zhì)量稽核投入產(chǎn)出比

18、問(wèn)題(性能和成本)當(dāng)關(guān)鍵業(yè)務(wù)域數(shù)據(jù)體量太大(如每日新增超過(guò)百TB)、集群 規(guī)模較大(無(wú)法建立對(duì)等測(cè)試環(huán)境),總體質(zhì)量稽核成本過(guò)高。(通用SQL稽核方式帶來(lái)的資源浪費(fèi)和性能問(wèn)題)數(shù)據(jù)質(zhì)量報(bào)告的問(wèn)題 (項(xiàng)目交付)常態(tài)化的質(zhì)量稽核統(tǒng)計(jì)報(bào)表,無(wú)法給非技術(shù)口領(lǐng)導(dǎo)層直觀 的呈現(xiàn),需要結(jié)合業(yè)務(wù)領(lǐng)域知識(shí)和組織結(jié)構(gòu)做進(jìn)一步封裝。數(shù)據(jù)稽核對(duì)象和策略的選擇針對(duì)省分不同賬期不同主題域數(shù)據(jù),如何根據(jù)業(yè)務(wù)要求和 實(shí)時(shí)流代碼埋點(diǎn)處理流程進(jìn)行抽樣,選擇性做質(zhì)量稽核??jī)?yōu)先 解決采集鏈路質(zhì)量監(jiān)控、數(shù)據(jù)斷傳補(bǔ)傳漏傳、波動(dòng)性監(jiān)測(cè)等基 礎(chǔ)層稽核問(wèn)題。然后解決業(yè)務(wù)層稽核問(wèn)題。(數(shù)倉(cāng)開(kāi)發(fā)、數(shù)據(jù)應(yīng)用業(yè)務(wù)沖突)與元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、調(diào)度系統(tǒng)協(xié)同

19、數(shù)據(jù)源目錄分類和質(zhì)檢對(duì)象來(lái)源于元數(shù)據(jù)系統(tǒng),數(shù)據(jù)表模 型質(zhì)檢要求來(lái)自于數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng),數(shù)據(jù)質(zhì)量任務(wù)執(zhí)行通常要跟 工作流調(diào)度系統(tǒng)對(duì)接。產(chǎn)品設(shè)計(jì)技術(shù)研發(fā)運(yùn)營(yíng)實(shí)踐2020模塊5:數(shù)據(jù)標(biāo)準(zhǔn)平臺(tái)功能需求核心模塊1:數(shù)據(jù)元、代碼集、標(biāo)準(zhǔn)術(shù)語(yǔ)管理核心模塊2:數(shù)據(jù)標(biāo)準(zhǔn)分類檢索、實(shí)施流程管理核心模塊3:數(shù)倉(cāng)建模管理(邏輯模型設(shè)計(jì)與物化)定位與目標(biāo):數(shù)據(jù)標(biāo)準(zhǔn)是大數(shù)據(jù)治理生態(tài)中重要的一環(huán),與數(shù)據(jù)過(guò)程管理、元數(shù)據(jù)管理、質(zhì)量管理等模塊 進(jìn)行協(xié)作,組成完整工具集,促進(jìn)公司、組織內(nèi) 數(shù)據(jù)處理、交換相關(guān)流程、功能的標(biāo)準(zhǔn)化,有效 提高數(shù)倉(cāng)平臺(tái)建設(shè)和數(shù)據(jù)管理的質(zhì)量和效率,加 速數(shù)據(jù)流轉(zhuǎn),從而促進(jìn)業(yè)務(wù)創(chuàng)新。2020模塊5:數(shù)據(jù)標(biāo)準(zhǔn)平臺(tái)

20、產(chǎn)品設(shè)計(jì)跨地域多源異構(gòu)數(shù)據(jù)集成數(shù)據(jù)標(biāo)準(zhǔn)化構(gòu)成數(shù)據(jù)命名標(biāo)準(zhǔn)數(shù)據(jù)模型標(biāo)準(zhǔn)數(shù)倉(cāng)邏輯模型設(shè)計(jì)與物化模型在線編輯數(shù)據(jù)標(biāo)準(zhǔn)導(dǎo)入2020模塊5:數(shù)據(jù)標(biāo)準(zhǔn)平臺(tái)運(yùn)營(yíng)實(shí)踐數(shù)據(jù)標(biāo)準(zhǔn)分類管理問(wèn)題國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)同時(shí)管理成本較大,其實(shí) 踐層面的指導(dǎo)意義待深入探索研究和試錯(cuò)。數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)部推廣應(yīng)用問(wèn)題數(shù)據(jù)標(biāo)準(zhǔn)管理工具在內(nèi)部推廣應(yīng)用的實(shí)際困難往往會(huì)超出 預(yù)期,需要持續(xù)迭代,離不開(kāi)一把手的支持和長(zhǎng)期的努力。數(shù)據(jù)標(biāo)準(zhǔn)制定相關(guān)的業(yè)務(wù)梳理工作數(shù)據(jù)標(biāo)準(zhǔn)的制定往往依賴于領(lǐng)域業(yè)務(wù)能手、IT架構(gòu)專家等 組織團(tuán)隊(duì)的通力協(xié)作,相關(guān)的業(yè)務(wù)梳理工作工程量很大?;跀?shù)據(jù)標(biāo)準(zhǔn)做數(shù)倉(cāng)全局規(guī)劃和落地(一體化設(shè)計(jì))主要是從邏輯模型設(shè)計(jì)和物化入手

21、,逐漸完善數(shù)據(jù)倉(cāng)庫(kù)分 層分域、數(shù)據(jù)質(zhì)量、數(shù)據(jù)指標(biāo)標(biāo)準(zhǔn)等數(shù)據(jù)架構(gòu)規(guī)范的落地。(大規(guī)模數(shù)據(jù)平臺(tái)匹配度較低,適合推到重來(lái))產(chǎn)品設(shè)計(jì)技術(shù)研發(fā)運(yùn)營(yíng)實(shí)踐2020模塊6:集群治理平臺(tái)功能需求核心模塊1:集群治理數(shù)據(jù)采集2020核心模塊2:集群治理分析引擎核心模塊3:集群治理平臺(tái)應(yīng)用定位與目標(biāo):基于Hadoop集群底層組件運(yùn)行機(jī)制和大數(shù)據(jù)開(kāi)發(fā)運(yùn)維等組織活動(dòng)進(jìn)行多維交叉洞察,以降本 增效為中心,向下保障大規(guī)模Hadoop集群算力, 向上指導(dǎo)數(shù)據(jù)治理動(dòng)作實(shí)施和業(yè)務(wù)連續(xù)性。模塊6:集群治理平臺(tái)技術(shù)架構(gòu)38自底向上,用大數(shù)據(jù)的技術(shù)手段解決大規(guī)模數(shù)據(jù)集群治理層面的各種問(wèn)題設(shè)計(jì)原則統(tǒng)一實(shí)時(shí)、離線元數(shù)據(jù)自動(dòng)化采集 多種元數(shù)

22、據(jù)數(shù)據(jù)源,研發(fā)可配置式支持 不同引擎作業(yè)元數(shù)據(jù)采集、審計(jì)日志采 集、變更日志采集、分布式存儲(chǔ)元數(shù)據(jù) 采集、Hive元數(shù)據(jù)采集等統(tǒng)一采集工具統(tǒng)一離線、流式分布式計(jì)算引擎 采用業(yè)界成熟的分布式實(shí)時(shí)、離線數(shù)據(jù) 處理引擎,保證高吞吐、低延遲、高性 能數(shù)據(jù)處理融合多種存儲(chǔ)服務(wù)滿足各種場(chǎng)景 采用高可用分布式多種存儲(chǔ)系統(tǒng),分布 式列數(shù)據(jù)庫(kù)存儲(chǔ)、分布式搜索引擎、高 可用圖數(shù)據(jù)庫(kù)、高并發(fā)時(shí)序數(shù)據(jù)庫(kù)無(wú)侵入性2020實(shí)時(shí)審計(jì)模塊6:集群治理平臺(tái)產(chǎn)品設(shè)計(jì)用戶行為告警冗余計(jì)算挖掘待優(yōu)化作業(yè)定位待優(yōu)化作業(yè)排行數(shù)據(jù)血緣分析集群資源畫(huà)像數(shù)據(jù)作業(yè)畫(huà)像HDFS文件畫(huà)像大數(shù)據(jù)集群治理平臺(tái)針對(duì)大數(shù)據(jù)集群和數(shù)據(jù)加工流程進(jìn)行精細(xì)化監(jiān)控分

23、析,從資源畫(huà)像、存儲(chǔ)畫(huà)像、作業(yè)畫(huà)像、RPC畫(huà)像、冗余計(jì)算挖掘、數(shù)據(jù)血緣分 析、用戶行為告警八大維度幾十個(gè)小維度交叉洞察可優(yōu)化作業(yè)和業(yè)務(wù)處理流程,不斷驅(qū)動(dòng)集群資源優(yōu)化。2020模塊6:集群治理平臺(tái)運(yùn)營(yíng)實(shí)踐優(yōu)化前集群負(fù)載(201X年7月)優(yōu)化后集群負(fù)載(201X年3月)公司業(yè)務(wù)高速發(fā)展過(guò)程中數(shù)據(jù)業(yè)務(wù)需求越來(lái)越復(fù)雜,所需要的算力也越來(lái) 越大,進(jìn)一步導(dǎo)致集群的規(guī)模越來(lái)越大,承擔(dān)的產(chǎn)品也越來(lái)越多,集群面 臨資源負(fù)載過(guò)高、資源搶占嚴(yán)重、RPC請(qǐng)求負(fù)載過(guò)高等問(wèn)題,存儲(chǔ)系統(tǒng)也 面臨空文件過(guò)多、垃圾文件過(guò)多、小文件過(guò)多、平均文件大小過(guò)小、文件 數(shù)持續(xù)增長(zhǎng)等一系列問(wèn)題,存儲(chǔ)系統(tǒng)穩(wěn)定性面臨很大隱患,作業(yè)又面臨執(zhí) 行

24、耗時(shí)過(guò)長(zhǎng)、耗資源大、數(shù)據(jù)傾斜嚴(yán)重等問(wèn)題,直接導(dǎo)致數(shù)據(jù)加工異常率 過(guò)高、數(shù)據(jù)具備時(shí)間有延遲風(fēng)險(xiǎn)、產(chǎn)品交付面臨很多風(fēng)險(xiǎn)。面臨的挑戰(zhàn)大數(shù)據(jù)分析方法價(jià)值創(chuàng)新場(chǎng)景描述實(shí)際應(yīng)用效果存儲(chǔ) 畫(huà)像資源 畫(huà)像作業(yè) 畫(huà)像HDFS文件存儲(chǔ)洞察開(kāi)發(fā)NameNode 元數(shù)據(jù)持久化文件 Fsimage和元數(shù)據(jù)操作 文件記錄文件EditLog 的反序列化解析項(xiàng)目, 無(wú)侵入性洞察全集群, 冷溫?zé)岽鎯?chǔ)狀態(tài),千萬(wàn) 級(jí)目錄精細(xì)畫(huà)像。Job數(shù)據(jù) 作業(yè)洞察實(shí)現(xiàn)資源監(jiān)控與異常 作業(yè)多維度洞察、高效協(xié) 同優(yōu)化。綜合幾十個(gè)小維 度進(jìn)行集群交叉治理并協(xié) 同各相關(guān)組織進(jìn)行全域治 理,使集群逐步向良性健 康方向發(fā)展。冗余計(jì)算 挖掘分析通 過(guò) 對(duì) H

25、DFS JOB BINARY FILE分析,定位疑 似冗余計(jì)算作業(yè),與組織 架構(gòu)復(fù)雜度無(wú)關(guān)、不依賴 上層業(yè)務(wù)的大量輸入,其 核心提取出具有相同輸入 路徑的作業(yè),以目錄維度 視角挖掘作業(yè)。核心技術(shù)框架集群健康分2020 精準(zhǔn)洞察:能夠精準(zhǔn)定位問(wèn)題根因,提升優(yōu)化效率數(shù)據(jù)準(zhǔn)確:從底層采集強(qiáng)關(guān)系元數(shù)據(jù)以及日志,數(shù)據(jù)準(zhǔn)確度高無(wú)侵入性:優(yōu)化洞察不需要修改產(chǎn)線環(huán)境配置,不影響產(chǎn)線環(huán)境生產(chǎn) 多維畫(huà)像:從多個(gè)大維度幾十小維度交叉洞察潛在問(wèn)題與可優(yōu)化方向 深入內(nèi)核:通過(guò)閱讀內(nèi)核源碼深入了解底層組件,找到解決方案跨組協(xié)同:根據(jù)洞察報(bào)告多組協(xié)同自發(fā)優(yōu)化實(shí)現(xiàn)了在算力不增加,數(shù)據(jù)處理量翻倍的情況下,算力整體負(fù) 載下降20

26、%以上,每年直接節(jié)省固定資產(chǎn)投資上千萬(wàn)元成本。先后解決集群小文件治理、作業(yè)模型高級(jí)參數(shù)自動(dòng)化、數(shù)據(jù)模 型治理專題優(yōu)化等難題,并形成了集群深度治理平臺(tái)化能力。模塊7:數(shù)據(jù)服務(wù)平臺(tái)功能需求核心模塊1:云計(jì)算資源池核心模塊2:數(shù)據(jù)能力商店核心模塊3:多租戶控制臺(tái)定位與目標(biāo):以生產(chǎn)環(huán)境的運(yùn)營(yíng)支撐和應(yīng)用開(kāi)發(fā)為主要IT 訴求,構(gòu)建IaaS、PaaS、SaaS三層私有云體系,提供可復(fù)用、可隔離的存儲(chǔ)計(jì)算資源、數(shù)據(jù)資源、 開(kāi)發(fā)組件資源,同時(shí)保證多租戶安全隔離,方便 數(shù)據(jù)資源開(kāi)放共享和數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)。2020模塊7:數(shù)據(jù)服務(wù)平臺(tái)產(chǎn)品設(shè)計(jì)統(tǒng)一能力開(kāi)放云數(shù)據(jù)服務(wù)平臺(tái)各項(xiàng)業(yè)務(wù)功能,為租戶提供基礎(chǔ)設(shè)施、云數(shù)據(jù)庫(kù)、計(jì)算框架

27、、數(shù)據(jù)指令平臺(tái)、應(yīng)用與服務(wù)、安全控制等產(chǎn)品的統(tǒng)一瀏覽、申請(qǐng)、劃配,并對(duì)租戶使用的產(chǎn)品和運(yùn)營(yíng)進(jìn)行統(tǒng)一管理。跨地域多源異構(gòu)數(shù)據(jù)集成圖形化的數(shù)據(jù)管控套件自助式可視化建模平臺(tái)數(shù)據(jù)服務(wù)API管理統(tǒng)一的計(jì)費(fèi)報(bào)表管理數(shù)據(jù)服務(wù)門戶系統(tǒng)BI自助分析工具2020模塊7:數(shù)據(jù)服務(wù)平臺(tái)運(yùn)營(yíng)實(shí)踐能力開(kāi)放平臺(tái)向租戶提供資源、數(shù)據(jù)以及服務(wù),為租戶方便有效的使用平臺(tái)環(huán)境保駕護(hù)航。租戶基于能力開(kāi)放平臺(tái)獲取全國(guó)樣例數(shù)據(jù),可結(jié)合本地?cái)?shù)據(jù)進(jìn)行模型訓(xùn)練,訓(xùn)練后的腳本提交平臺(tái)反饋至 大數(shù)據(jù)生產(chǎn)服務(wù)平臺(tái)進(jìn)行加工計(jì)算,計(jì)算后的結(jié)果推 送至租戶空間,滿足租戶基于全國(guó)數(shù)據(jù)的分析挖掘。2020數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)=數(shù)據(jù)能力開(kāi)放+數(shù)據(jù)生態(tài)合作Contents背景概述 (06P)01關(guān)鍵挑戰(zhàn) (04P)02詳細(xì)介紹 (23P)03整體總結(jié) (01P)04目 錄2020數(shù)據(jù)治理/數(shù)據(jù)資產(chǎn)管理失敗的5個(gè)主要原因:在認(rèn)知戰(zhàn)略層面,沒(méi)有真正上升到數(shù)據(jù)戰(zhàn)略層面,沒(méi)有一把手牽頭去規(guī)劃和執(zhí)行,在中途放棄了很多目標(biāo)。在組織協(xié)同層面,沒(méi)有建立起高效的數(shù)據(jù)組織協(xié)同機(jī)制,沒(méi)有形成合力,互相推諉扯皮,組織墻問(wèn)題突出。在文化價(jià)值層面,沒(méi)有形成精益實(shí)用的數(shù)據(jù)驅(qū)動(dòng)文化,大量歷史習(xí)慣阻礙了文化的落地,無(wú)法突破舒適圈。在人才體系層面

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論