




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、大數(shù)據(jù)治理運營整體解決方案目錄/Contents企業(yè)數(shù)據(jù)治理總體方案01數(shù)據(jù)治理平臺解決方案02數(shù)據(jù)治理運營實施方案03數(shù)據(jù)治理定義:數(shù)據(jù)治理專注于將數(shù)據(jù)作為企事業(yè)單位數(shù)據(jù)資產(chǎn)進行應用和管理的一套管理機制,能夠消除數(shù)據(jù)的不一致性,建立規(guī)范的數(shù)據(jù)應用標準,提高數(shù)據(jù)質(zhì)量,實現(xiàn)數(shù)據(jù)內(nèi)外部共享,并能夠?qū)?shù)據(jù)作為組織的寶貴資產(chǎn)應用于業(yè)務、管理、戰(zhàn)略決策中,發(fā)揮數(shù)據(jù)資產(chǎn)價值。狹義上:數(shù)據(jù)治理是指對數(shù)據(jù)質(zhì)量的管理、專注在數(shù)據(jù)本身。廣義上:數(shù)據(jù)治理是對數(shù)據(jù)的全生命周期進行管理,包含數(shù)據(jù)采集、清洗、轉(zhuǎn)換等傳統(tǒng)數(shù)據(jù)集成和存儲環(huán)節(jié)的工作、同時還包含數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準、質(zhì)量、安全、數(shù)據(jù)開發(fā)、數(shù)據(jù)服務與應用等,整個
2、數(shù)據(jù)生命期而開展開的業(yè)務、技術和管理活動都屬于數(shù)據(jù)治理范疇。數(shù)據(jù)治理要素明確數(shù)據(jù)治理責任,建立數(shù)據(jù)治理組織 管理出成效,制度是保障數(shù)據(jù)規(guī)范:沒有規(guī)矩,不成方圓 數(shù)據(jù)治理活動,理論結(jié)合實踐專業(yè)的數(shù)據(jù)治理平臺數(shù)據(jù)治理方法論數(shù)據(jù)治理要素大數(shù)據(jù)管理典型方案大數(shù)據(jù)管理與應用平臺AI圖譜技術大數(shù)據(jù)云計算數(shù)據(jù)整合可視化數(shù)據(jù)展示功能設計應用發(fā)布需求分析數(shù)據(jù)應用模型設計輔助決策價值挖掘數(shù)據(jù)智能經(jīng)營分析數(shù)據(jù)資源數(shù)據(jù)計算管理治理開發(fā)調(diào)度數(shù)據(jù)模型計算模型數(shù)據(jù)源關聯(lián)業(yè)務目標表單樣式計算任務調(diào)度機器學習數(shù)據(jù)應用與推送整合數(shù)據(jù)資源連接各類人員數(shù)據(jù)應用/服務集市實現(xiàn)數(shù)據(jù)資產(chǎn)的保管與增值讓數(shù)據(jù)賦能業(yè)務數(shù)據(jù)采集數(shù)據(jù)安全大數(shù)據(jù)平臺
3、典型架構(gòu)數(shù)據(jù)源業(yè)務系統(tǒng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)實時數(shù)據(jù)流非結(jié)構(gòu)化數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)采集離線采集實時采集FTP采集接口采集流式采集數(shù)據(jù)資源中心存儲RDMS消息隊列分布式存儲存儲非結(jié)構(gòu)化數(shù)據(jù)圖片數(shù)據(jù)文本數(shù)據(jù)實時數(shù)據(jù)實時存儲時實模型離線數(shù)據(jù)應用租戶計算區(qū)離線計算實時計算標準層數(shù)據(jù)湖數(shù)據(jù)治理管理元數(shù)據(jù)管理數(shù)據(jù)標準管理數(shù)據(jù)開發(fā)管理統(tǒng)一調(diào)度管理數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)架構(gòu)管理數(shù)據(jù)服務管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)管理門戶&數(shù)據(jù)可視化數(shù)據(jù)應用經(jīng)營分析輔助決策潛客挖掘用戶畫像業(yè)務預測風險預警數(shù)據(jù)應用服務管理統(tǒng)一運維基礎資源監(jiān)控應用服務監(jiān)控監(jiān)控告警故障管理運維作業(yè)管理運維流程管理數(shù)據(jù)安全統(tǒng)一身份管理統(tǒng)一認證管理數(shù)據(jù)脫敏管理安全日志管理安全
4、告警安全審計管理大數(shù)據(jù)平臺典型架構(gòu)基礎支撐平臺分布式數(shù)據(jù)存儲消息隊列RDB存儲數(shù)據(jù)存儲圖數(shù)據(jù)庫分布式文件存儲并行大數(shù)據(jù)計算與分布式存儲(HADOOP)并行分布式關系型數(shù)據(jù)庫(MPP DB)數(shù)據(jù)采集平臺數(shù)據(jù)采集離線采集實時采集流媒體采集數(shù)據(jù)導入上報準實時采集政務數(shù)據(jù)(區(qū)級、委辦單位)公共事業(yè)數(shù)據(jù)行業(yè)數(shù)據(jù)(金融、電信)物聯(lián)網(wǎng)數(shù)據(jù)(氣象、攝像頭)數(shù)據(jù)源基數(shù)據(jù)湖SRC近源數(shù)據(jù)層:區(qū)級條線業(yè)務數(shù)據(jù),以及結(jié)構(gòu)化的視頻及物聯(lián)網(wǎng)感知數(shù)據(jù)ODS源數(shù)據(jù)層:區(qū)級條線業(yè)務數(shù)據(jù),以及結(jié)構(gòu)化的視頻及物聯(lián)網(wǎng)感知數(shù)據(jù)法人組織自然人空間地理電子證照基礎庫主題庫專題庫一網(wǎng)通管一網(wǎng)通辦城市規(guī)劃民生幸福經(jīng)濟發(fā)展環(huán)境保護應急管理物聯(lián)管
5、理宏觀經(jīng)濟醫(yī)療健康數(shù)據(jù)資源中心數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)架構(gòu)管理數(shù)據(jù)集成管理元數(shù)據(jù)管理數(shù)據(jù)異常管理數(shù)據(jù)標準管理數(shù)據(jù)開發(fā)管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)治理數(shù)據(jù)管理智能標簽數(shù)據(jù)智能數(shù)據(jù)探索畫像分析數(shù)據(jù)DNA治理管理平臺數(shù)據(jù)共享開放數(shù)據(jù)共享申請服務開發(fā)共享服務交換級聯(lián)服務監(jiān)控服務申請授權(quán)管理數(shù)據(jù)共享管理審計數(shù)據(jù)共享安全管控數(shù)據(jù)開放門戶數(shù)據(jù)服務互動交流其他開放服務數(shù)據(jù)開放清單資源查詢資源申請資源使用資源詳情數(shù)據(jù)目錄統(tǒng)一數(shù)據(jù)管理門戶管理應用門戶數(shù)據(jù)安全平臺 統(tǒng)一身份管理統(tǒng)一權(quán)限管理敏感數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)分類分級數(shù)據(jù)防泄漏加密秘鑰管理安全日志采集存儲統(tǒng)一安全審計分析數(shù)據(jù)脫敏管理統(tǒng)一運維平臺監(jiān)控資源管理基礎資源監(jiān)測應用系統(tǒng)監(jiān)控業(yè)務服
6、務監(jiān)控服務啟停數(shù)據(jù)質(zhì)量監(jiān)控運維流程管理故障預案管理(管理與開放)門戶數(shù)據(jù)共享開放平臺數(shù)據(jù)治理平臺數(shù)據(jù)資源中心(數(shù)據(jù)湖、基礎數(shù)據(jù)庫、基礎庫、主專題庫)數(shù)據(jù)基礎支撐平臺數(shù)據(jù)采集平臺數(shù)據(jù)源統(tǒng)一運維管理平臺數(shù)據(jù)安全管理平臺數(shù)據(jù)治理在整個大數(shù)據(jù)平臺中的定位數(shù)據(jù)治理平臺數(shù)據(jù)資產(chǎn)管理(元數(shù)據(jù)、標準、質(zhì)量、資產(chǎn)、目錄)應用建模數(shù)據(jù)采集數(shù)據(jù)共享數(shù)據(jù)加工數(shù)據(jù)源數(shù)據(jù)基礎支撐平臺數(shù)據(jù)采集平臺數(shù)據(jù)資源中心質(zhì)量稽核統(tǒng)一維護平臺數(shù)據(jù)安全平臺數(shù)據(jù)采集任務調(diào)度數(shù)據(jù)處理提取與存儲集中監(jiān)控維護信息安全保障數(shù)據(jù)共享開放平臺數(shù)據(jù)管理與應用門戶數(shù)據(jù)資產(chǎn)&服務調(diào)度開放控制&下發(fā)調(diào)度是整個大數(shù)據(jù)資源平臺管理與應用開發(fā)的統(tǒng)一入口是對數(shù)據(jù)資源及
7、數(shù)據(jù)資產(chǎn)進行管理與應用控制的主要界面提供數(shù)據(jù)加工處理的核心能力,并串聯(lián)、集成其他能力模塊完成面向需求的數(shù)據(jù)生產(chǎn),是實現(xiàn)將原始數(shù)據(jù)資源轉(zhuǎn)換為數(shù)據(jù)應用服務的中心樞紐12435540資產(chǎn)管理數(shù)據(jù)治理總體方案利用數(shù)據(jù)治理平臺所覆蓋的從標準、設計、采集、開發(fā)到使用,再到交付和運維的全數(shù)據(jù)治理流程,幫助組織實現(xiàn)一站式數(shù)據(jù)治理運營服務,可滿足數(shù)據(jù)共享交換、數(shù)據(jù)開發(fā)、數(shù)據(jù)運營多種應用場景,并通過構(gòu)建數(shù)據(jù)工廠,實現(xiàn)數(shù)據(jù)治理的標準化、流程化與組件化。數(shù)據(jù)服務數(shù)據(jù)生產(chǎn)者業(yè)務數(shù)據(jù)日志數(shù)據(jù)視頻數(shù)據(jù)物聯(lián)數(shù)據(jù)各類文件互聯(lián)網(wǎng)數(shù)據(jù)數(shù)據(jù)消費者內(nèi)部管理者內(nèi)部業(yè)務部門兄弟單位合作伙伴外部機構(gòu)內(nèi)部下屬單位大數(shù)據(jù)資源中心數(shù)據(jù)治理規(guī)范標準
8、(元數(shù)據(jù)、標準、質(zhì)量、資產(chǎn)、目錄)大數(shù)據(jù)治理平臺數(shù)據(jù)建模數(shù)據(jù)采集數(shù)據(jù)共享清洗加工質(zhì)量稽核資產(chǎn)管理數(shù)據(jù)生命周期管理持續(xù)反饋數(shù)據(jù)歸集數(shù)據(jù)安全管控數(shù)據(jù)治理數(shù)據(jù)采集方案委辦1委辦2委辦3委辦N委辦局政務網(wǎng)VPC(批數(shù)據(jù))互聯(lián)網(wǎng)(流數(shù)據(jù))委辦1委辦2委辦3委辦NoracleDB類型DM其他數(shù)據(jù)類型API接口結(jié)構(gòu)化文件非結(jié)構(gòu)化文件MySQL大數(shù)據(jù)平臺數(shù)據(jù)采集采集數(shù)據(jù)存儲采集數(shù)據(jù)量數(shù)據(jù)入湖存儲入湖數(shù)據(jù)量比對采集和入湖數(shù)據(jù)量數(shù)據(jù)一致性檢查數(shù)據(jù)湖斷流告警狀態(tài)監(jiān)測批數(shù)據(jù)處理:通過數(shù)據(jù)采集平臺任務調(diào)度的方式,根據(jù)時間戳定時探查委辦局前置庫數(shù)據(jù)以及結(jié)構(gòu)化文件的變動,通過數(shù)據(jù)采集平臺的解析,抽取增量數(shù)據(jù)到數(shù)據(jù)湖。流數(shù)據(jù)
9、處理:通過數(shù)據(jù)湖內(nèi)獨立部署kafka消息系統(tǒng),采用委辦局推送或自動拉取的方式,接入流數(shù)據(jù)。數(shù)據(jù)抽取過程中進行監(jiān)測,實施監(jiān)測目前抽取的狀態(tài)、抽取進度,斷流告警,一致性檢測結(jié)果等。并通過分布式部署提高數(shù)據(jù)抽取速度。數(shù)據(jù)治理數(shù)據(jù)應用開發(fā)模型開發(fā)程序開發(fā)程序測試審核上線數(shù)據(jù)探索2-模型定義創(chuàng)建模型基礎信息、定義模型的元數(shù)據(jù)3-構(gòu)建表結(jié)構(gòu)添加模型字段信息提供手工/批量方式4-編輯模型應用程序可視化開發(fā):固化程序命令,拖拽式使用,自由配置邏輯腳本開發(fā):支持sql、Python、java、shell等類型的腳本5-程序在線測試提供WEB界面可視化測試功能;查看執(zhí)行時長、執(zhí)行狀態(tài)等信息,方便開發(fā)人員調(diào)試,性能
10、分析7-提交審核并上線開發(fā)人員建立上線任務,提交審核并上線6-調(diào)度配置1-數(shù)據(jù)探索根據(jù)業(yè)務邏輯做需求分析,通過探索了解相關數(shù)據(jù)情況數(shù)據(jù)治理統(tǒng)一調(diào)度方案數(shù)據(jù)采集平臺采集任務調(diào)度對接數(shù)據(jù)治理開發(fā)調(diào)度平臺元數(shù)據(jù)同步數(shù)據(jù)治理資產(chǎn)管理平臺數(shù)據(jù)支撐平臺JDBC接口流數(shù)據(jù)處理數(shù)據(jù)共享開放應用平臺庫表數(shù)據(jù)下發(fā)任務調(diào)度數(shù)據(jù)采集平臺的采集任務完成后,通知開發(fā)調(diào)度管理平臺的庫內(nèi)處理程序進行調(diào)度任務的銜接;數(shù)據(jù)支撐平臺提供JDBC接口,供開發(fā)調(diào)度管理平臺調(diào)用,實現(xiàn)數(shù)據(jù)庫操作的調(diào)度開發(fā)調(diào)度管理平臺對數(shù)據(jù)支撐平臺發(fā)布流數(shù)據(jù)處理任務;數(shù)據(jù)資產(chǎn)管理平臺提供元數(shù)據(jù)同步接口,把模型元數(shù)據(jù)同步給開發(fā)調(diào)度管理平臺做庫內(nèi)處理開發(fā);數(shù)據(jù)
11、調(diào)度平臺完成相關數(shù)據(jù)應用計算后,將庫表數(shù)據(jù)推送給數(shù)據(jù)開放平臺,對外開放使用。數(shù)據(jù)治理數(shù)據(jù)資產(chǎn)管理邏輯資源層(計算、存儲、網(wǎng)絡資源)政務云管理存儲管理網(wǎng)絡管理資源調(diào)度系統(tǒng)管理元數(shù)據(jù)存儲庫業(yè)務庫主題數(shù)據(jù)庫元數(shù)據(jù)數(shù)據(jù)資源基礎設施層用戶管理專題數(shù)據(jù)庫基礎數(shù)據(jù)庫指標部門數(shù)據(jù)庫部門數(shù)據(jù)庫人口庫法人庫互聯(lián)網(wǎng)+監(jiān)管健康衛(wèi)生城市運行經(jīng)濟運行根據(jù)提供方供數(shù)責任,對接入數(shù)據(jù)資源進行編目,維護其業(yè)務屬性和管理屬性,使其初步具備應用條件;參照數(shù)據(jù)標準設計數(shù)據(jù)模型結(jié)構(gòu)、業(yè)務代碼,通過建立變更管理和版本控制,實現(xiàn)數(shù)據(jù)模型管控;通過基礎元數(shù)據(jù)定義數(shù)據(jù)資產(chǎn)規(guī)格(如:庫表、文件、文件夾、接口等),并借助統(tǒng)一平臺實現(xiàn)資源接入。數(shù)據(jù)
12、資產(chǎn)管理模型管理模型維護代碼關聯(lián)版本管理關系關聯(lián)對標分析元數(shù)據(jù)目錄管理目錄維護目錄分類目錄瀏覽資源編目目錄標簽目錄級聯(lián)質(zhì)量管理質(zhì)量定義規(guī)則管理數(shù)據(jù)糾正規(guī)則庫數(shù)據(jù)檢核質(zhì)量報告標準管理標準維護標準瀏覽代碼映射標準導入落地檢核版本管理資源管理數(shù)據(jù)源管理資源注冊資源發(fā)布資源審核前置節(jié)點庫表資源文件資源接口資源.共享管理應用場景事項字典預算項目應用系統(tǒng)共享申請共享審核共享授權(quán)共享統(tǒng)計.數(shù)據(jù)治理項目實施方案數(shù)據(jù)治理項目實施方案數(shù)據(jù)管理平臺建設數(shù)據(jù)治理開發(fā)運營平臺工具支撐應用需求推動利器工事建設一套大數(shù)據(jù)管理與應用平臺以構(gòu)建一個能持續(xù)高效運轉(zhuǎn)的數(shù)據(jù)治理體系為目標建設縣數(shù)據(jù)湖開發(fā)建設人口與法人基礎庫建設市場監(jiān)
13、管、工業(yè)、全民健康、惠民資金監(jiān)管、農(nóng)業(yè)五大示范應用逐步構(gòu)建一套數(shù)據(jù)治理應用與服務體系技術工具能力專業(yè)團隊管理分析理論4PSTP理論PEST分析方法能力成功經(jīng)驗用戶使用行為5W2H生命周期邏輯樹數(shù)據(jù)處理管理HadoopAI技術機器學習管理治理數(shù)據(jù)倉庫數(shù)據(jù)分析對比分析交叉分析回歸分析數(shù)據(jù)標簽回歸聚類分類神經(jīng)網(wǎng)絡語音識別圖像識別ETL交付流程項目需求分析系統(tǒng)開發(fā)與測試平臺上線應用平臺運營支撐功能/模型迭代平臺工程師數(shù)據(jù)工程師項目管理運營支撐架構(gòu)與功能設計應用開發(fā)平臺建設咨詢服務公式法對比法二八法漏斗法統(tǒng)計分析方法大數(shù)據(jù)平臺建設數(shù)倉/BI建設數(shù)據(jù)治理數(shù)據(jù)建模應用開發(fā)數(shù)據(jù)分析咨詢專題主題開發(fā)運營支撐功能
14、/模型迭代算法工程師數(shù)據(jù)咨詢師數(shù)據(jù)治理平臺解決方案2平臺總體概述提供多種數(shù)據(jù)采集或集成,包括業(yè)務系統(tǒng)數(shù)據(jù) ETL,外部文件、第三方接口抽取,實時消息采集等。采集/集成環(huán)節(jié)支撐多種數(shù)據(jù)加工方式,包括批量數(shù)據(jù)加工,實時交互計算,機器學習等。 加工/計算環(huán)節(jié)支持用戶個性化需求、自主數(shù)據(jù)探索,提供固定主題的報表、指標,臨時報表需求、自助取數(shù),數(shù)據(jù)探索、數(shù)據(jù)實驗等功能。決策/探索環(huán)節(jié)數(shù)據(jù)治理平臺適用于分析型系統(tǒng)數(shù)據(jù)處理的各個過程,負責數(shù)據(jù)的加工處理以及加工處理過程數(shù)據(jù)標準、元數(shù)據(jù)和數(shù)據(jù)質(zhì)量的管理。平臺可以提供數(shù)據(jù)輸入、數(shù)據(jù)加工、數(shù)據(jù)輸出等數(shù)據(jù)流圖各個過程的全生命周期、全流程的數(shù)據(jù)處理,并在數(shù)據(jù)處理全過程
15、提供中提供數(shù)據(jù)治理和數(shù)據(jù)管控的一站式解決方案。大數(shù)據(jù)時代組織普遍要面對數(shù)據(jù)多樣化,缺少統(tǒng)一標準,集成困難;數(shù)據(jù)分散,形成信息孤島,共享困難;數(shù)據(jù)質(zhì)量低下,導致統(tǒng)計不準確的 諸多問題。如何有效管理數(shù)據(jù)資源使之能夠驅(qū)動業(yè)務的快速發(fā)展,成為數(shù)據(jù)治理產(chǎn)品的核心價值所在。平臺設計理念一個標準化工廠數(shù)據(jù)治理產(chǎn)品以為組織打造通用的數(shù)據(jù)工廠為設計理念,以構(gòu)建流水式數(shù)據(jù)產(chǎn)線為核心,幫助組織快速實現(xiàn)從“數(shù)據(jù)原料” 到“數(shù)據(jù)產(chǎn)品” 整個過程的加工處理、價值轉(zhuǎn)化以及規(guī)范管控。標準化生產(chǎn)自動化生產(chǎn)精益化管理由場景理解、場景抽象、抽象實現(xiàn)、抽象配置、方案生成、調(diào)度等工序組成由數(shù)據(jù)上下文形成自動化的數(shù)據(jù)流由多個工序最終生成
16、一體多面的數(shù)據(jù)治理流程平臺設計理念四大治理原則Metadata Before CodingObject Oriented ArchitectureBusiness Driven DesignTCU Principle業(yè)務元數(shù)據(jù)和技術元數(shù)據(jù)的強制性前向獲取機制,杜絕元數(shù)據(jù)的后期補錄, 建設保證業(yè)務元數(shù)據(jù)/技術元數(shù)據(jù)/技術實現(xiàn)這三者一致性的技術機制。將數(shù)據(jù)、業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)、數(shù)據(jù)加工、數(shù)據(jù)質(zhì)量檢查等與數(shù)據(jù)相關的內(nèi)容統(tǒng)一作為數(shù)據(jù)對象管理起來,且該數(shù)據(jù)對象是系統(tǒng)的最小管理單元。以最大化業(yè)務需求吻合度為目標,所有數(shù)據(jù)對象的設計和實現(xiàn),都必須以業(yè)務需求為驅(qū)動,在最大程度上保證數(shù)據(jù)對象與業(yè)務需求的一致
17、性。數(shù)據(jù)對象必須遵循 TCU(Take Care of Yourself)的設計原則,所有與數(shù)據(jù)有關的工作全部在對應的數(shù)據(jù)對象內(nèi)部完成,確保數(shù)據(jù)對象之間只有數(shù)據(jù)加工過程的上下游關系。平臺設計理念五大治理標準數(shù)據(jù)模型標準化數(shù)據(jù)運營全員化數(shù)據(jù)安全可控化數(shù)據(jù)治理產(chǎn)品化數(shù)據(jù)處理工廠化數(shù)據(jù)安全可控化體現(xiàn)安全的重要性、必要性,保障系統(tǒng)數(shù)據(jù)安全和數(shù)據(jù)服務開放過程中數(shù)據(jù)的安全可控。數(shù)據(jù)模型標準化通過數(shù)據(jù)治理平臺將數(shù)據(jù)模型的要求嚴格落地,杜絕不滿足標準的數(shù)據(jù)模型出現(xiàn)在系統(tǒng)中。 數(shù)據(jù)運營全員化體現(xiàn)“平臺化、開放性”的思想,提高數(shù)據(jù)開放的可視化,實現(xiàn)人人參與數(shù)據(jù)治理、數(shù)據(jù)建設和數(shù)據(jù)運維。數(shù)據(jù)治理產(chǎn)品化數(shù)據(jù)治理的成果
18、和內(nèi)容,必須通過切實可行的 IT 手段落實到系統(tǒng)來嚴格執(zhí)行。數(shù)據(jù)處理工廠化數(shù)據(jù)處理工作,必須實現(xiàn)工廠化的建設和管理,以“極速、低成本、高質(zhì)量”要求來響應業(yè)務部門的個性化數(shù)據(jù)需求。平臺設計理念三大實施策略1)有實現(xiàn)數(shù)據(jù)全程的可見、可管、可控,最小化業(yè)務和技術溝通成本的理論和機制; 2)有實現(xiàn)數(shù)據(jù)的全生命周期管理的理論和機制; 3)有實現(xiàn)開發(fā)管理規(guī)范和數(shù)據(jù)管理規(guī)范低成本的嚴格執(zhí)行的理論和機制; 4)有實現(xiàn)系統(tǒng)建設過程中問題的低成本監(jiān)管和解決的理論和機制; 5)有實現(xiàn)引入第三方獨立監(jiān)管供應商來負責系統(tǒng)的監(jiān)控和維護的理論和機制。1)有保證業(yè)務元數(shù)據(jù)與技術元數(shù)據(jù)的一致性的理論和機制; 2)有保證元數(shù)據(jù)與
19、數(shù)據(jù)加工環(huán)節(jié)的一致性的理論和機制; 3)有實現(xiàn)基于歷史經(jīng)驗的告警機制; 4)有低成本高效地解決傳統(tǒng)調(diào)度面臨的問題定位和修復問題最小代價等難題的理論和機制。1)有保證文檔與實現(xiàn)的一致性機制; 2)有實現(xiàn)對文檔系統(tǒng)的低依賴性的機制。 質(zhì)量管控 2系統(tǒng)管控 1知識管控3平臺總體架構(gòu)元數(shù)據(jù)管理數(shù)據(jù)標準管理數(shù)據(jù)開發(fā)調(diào)度數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)質(zhì)量管控數(shù)據(jù)共享服務服務能力解決方案金融零售制造業(yè)交通農(nóng)業(yè)用戶群體行業(yè)應用基礎平臺數(shù)據(jù)開發(fā)人員數(shù)據(jù)分析師業(yè)務用戶數(shù)據(jù)科學家數(shù)據(jù)管理員數(shù)據(jù)操作員組織、用戶、角色、權(quán)限管理數(shù)據(jù)源管理數(shù)據(jù)采集插件管理數(shù)據(jù)管理基礎平臺大數(shù)據(jù)存儲與計算引擎日志管理元數(shù)據(jù)智能管理調(diào)度中心建模設計數(shù)據(jù)治
20、理服務能力數(shù)據(jù)共享數(shù)據(jù)服務引擎服務門戶數(shù)據(jù)門戶( Web UI)數(shù)據(jù)治理( Web UI)元數(shù)據(jù)管理元數(shù)據(jù)血緣元數(shù)據(jù)維護元數(shù)據(jù)解析元數(shù)據(jù)采集數(shù)據(jù)標準管理業(yè)務標準管理技術標準管理命名標準管理維度標準管理數(shù)據(jù)質(zhì)量管理質(zhì)量統(tǒng)計分析質(zhì)量報告管理質(zhì)量稽核管理質(zhì)量規(guī)則配置數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)資產(chǎn)檢索數(shù)據(jù)資產(chǎn)總覽數(shù)據(jù)資產(chǎn)地圖數(shù)據(jù)資產(chǎn)目錄數(shù)據(jù)開發(fā)管理統(tǒng)一任務調(diào)度數(shù)據(jù)模型設計可視化開發(fā)數(shù)據(jù)腳本開發(fā)數(shù)據(jù)服務管理訂閱審核服務監(jiān)控服務審核服務管理算法庫消息管理互聯(lián)網(wǎng)電子政務教育平臺技術架構(gòu)采用工廠化的數(shù)據(jù)處理和管理模式,通過數(shù)據(jù)生產(chǎn)計劃、數(shù)據(jù)生產(chǎn)執(zhí)行和數(shù)據(jù)生產(chǎn)管理三大子模塊,保障數(shù)據(jù)處理全過程透明可控,實現(xiàn)工具化、流程化
21、和自動化的開發(fā)、運維、管理,提升數(shù)據(jù)開發(fā)、生產(chǎn)效率,保持系統(tǒng)健康、持續(xù)、穩(wěn)定的發(fā)展。平臺采用基于元數(shù)據(jù)驅(qū)動的開發(fā)模式,保障元數(shù)據(jù)與實際系統(tǒng)情況的一致性,通過元數(shù)據(jù)準確描述系統(tǒng),指導系統(tǒng)建設。數(shù)據(jù)處理管理模塊:負責軟件開發(fā)和數(shù)據(jù)規(guī)范的管控數(shù)據(jù)生產(chǎn)計劃模塊主要功能為:需求設計、設計確認等數(shù)據(jù)處理執(zhí)行模塊:負責數(shù)據(jù)處理計劃的執(zhí)行、數(shù)據(jù)的生產(chǎn)和數(shù)據(jù)質(zhì)量控制等工作提供元數(shù)據(jù)獲取和管理功能提供數(shù)據(jù)對象設計功能提供對象化接口模塊提供數(shù)據(jù)質(zhì)量管理功能提供可視化的標準 IDE 環(huán)境提供與各類底層平臺對接功能提供基于元數(shù)據(jù)血緣圖的調(diào)度功能平臺功能特性組件化應用提供各類組件,支持通過拖拉組件的方式快速形成數(shù)據(jù)生產(chǎn)線
22、,縮短應用的開發(fā)周期、節(jié)約應用的開發(fā)成本、提高應用的開發(fā)質(zhì)量,幫助用戶更快地完成數(shù)據(jù)模型、數(shù)據(jù)處理的開發(fā)。 組件采用松耦合式的架構(gòu),支持自定義擴展。分為三種類型:功能組件、模板組件、管控組件。 01) 功能組件02) 管控組件03) 模板組件04)自定義擴展功能組件對常用的數(shù)據(jù)處理、系統(tǒng)交互等方法進行封裝,實現(xiàn)快速的數(shù)據(jù)處理開發(fā)。包括:1)數(shù)據(jù)采集組件;2)數(shù)據(jù)處理組件;3)數(shù)據(jù)加載組件;4)數(shù)據(jù)分發(fā)組件;5)數(shù)據(jù)校驗組件;6)質(zhì)量告警組件。管控組件為系統(tǒng)管理員對開發(fā)人員開發(fā)的規(guī)范性提供管控手段。包括:1)命名規(guī)范組件;2)元數(shù)據(jù)完整性組件;3)表關聯(lián)合理性組件;4)余度限制組件;5)危險操作
23、控制組件;6)質(zhì)量規(guī)則組件;7)告警處理組件;8)分析報告組件。模板組件為開發(fā)人員提供數(shù)據(jù)模型快速開發(fā)的手段。包括:1)HDFS 模板;2)HIVE 模板;3)MR/Spark 模板;4)HBase 模板;6)RDBMS 模板。平臺的組件具備可擴展能力,支持組件的新增、刪除、修改。組件擴展采用熱插拔機制,且無需重啟平臺。平臺功能特性元數(shù)據(jù)管理提供元數(shù)據(jù)管理功能,獲取和管理在開發(fā)過程中沉淀的各類元數(shù)據(jù)信息,并提供開放開視圖,以支持管理人員、業(yè)務人員和技術人員快速準確地了解系統(tǒng), 同時支持數(shù)據(jù)質(zhì)量管理、安全管理、應用優(yōu)化、應用開發(fā)等功能。 元數(shù)據(jù)前向獲取統(tǒng)一管理和開放元數(shù)據(jù)一致性保障為確保元數(shù)據(jù)能
24、夠真實反映系統(tǒng)現(xiàn)狀,平臺提供業(yè)務元數(shù)據(jù)與技術元數(shù)據(jù)、技術元數(shù)據(jù)與技術實現(xiàn)、元數(shù)據(jù)血緣與數(shù)據(jù)調(diào)度等一致性的保障功能。1)業(yè)務元數(shù)據(jù)與技術元數(shù)據(jù)的一致性保障;2)技術元數(shù)據(jù)與技術實現(xiàn)的一致性保障;3)元數(shù)據(jù)血緣與數(shù)據(jù)調(diào)度的一致性。提供元數(shù)據(jù)前向獲取功能,讓開發(fā)人員在完成應用程序開發(fā)的同時,完成元數(shù)據(jù)的收集。元數(shù)據(jù)獲取分兩類:1)技術元數(shù)據(jù)的獲?。?)業(yè)務元數(shù)據(jù)的獲取。提供元模型設計、元數(shù)據(jù)填充、血緣分析等元數(shù)據(jù)管理功能平臺功能特性數(shù)據(jù)處理根據(jù)不同的數(shù)據(jù)生產(chǎn)環(huán)境,具備不同的數(shù)據(jù)處理能力,可根據(jù)自身需求,基于平臺擴展自主的數(shù)據(jù)處理功能。 數(shù)據(jù)治理平臺提供數(shù)據(jù)處理各項能力的開發(fā)功能,提供包括數(shù)據(jù)采集、處
25、理、裝載、分發(fā)、校驗等功能開發(fā)。具備執(zhí)行標準的開源 Hadoop 接口調(diào)用能力,以及基于個性化 Hadoop 接口封裝能力。如果數(shù)據(jù)存儲是以數(shù)據(jù)庫表形式,應支持基于 SQL 的數(shù)據(jù)處理開放。開發(fā)者可以通過集成開發(fā)環(huán)境編寫相應的 SQL 語句, 發(fā)送到相應的數(shù)據(jù)庫運行?;?SQL 的數(shù)據(jù)處理基于 Hive 提供類 SQL 的數(shù)據(jù)處理能力的開放。開發(fā)者通過集成開發(fā)環(huán)境編寫相應的 HiveQL 語句,并發(fā)送到 Hive 執(zhí)行,以處理存儲在分布式文件系統(tǒng) HDFS 中的數(shù)據(jù)。類 SQL 的數(shù)據(jù)處理Spark 是基于 MapReduce 算法實現(xiàn)的分布式計算,它立足于內(nèi)存計算,能更好地適用于數(shù)據(jù)挖掘與
26、機器學習等需要迭代的 MapReduce 的算法。Spark SQL 基于 Spark 提供 SQL 方式的數(shù)據(jù)訪問?;?Spark 的數(shù)據(jù)處理支持在集成開發(fā)環(huán)境中進行MR 作業(yè)開發(fā), 對開發(fā)者屏蔽 Hadoop 底層的復雜性?;贛ap/Reduce 的數(shù)據(jù)處理開發(fā)提供對已設計完成的數(shù)據(jù)計算模型進行申請,注冊,提交,執(zhí)行,監(jiān)控的統(tǒng)一管理的功能流處理,支持流式計算平臺功能特性質(zhì)量管理平臺提供從設計、開發(fā)到運行全過程的數(shù)據(jù)質(zhì)量管理功能,以及從數(shù)據(jù)來源、數(shù)據(jù)加工到數(shù)據(jù)輸出的全流程監(jiān)控功能。設計階段質(zhì)量在平臺中數(shù)據(jù)質(zhì)量規(guī)則是設計出來的,并作用于數(shù)據(jù)處理過程,具備靈活調(diào)整的特性,可實現(xiàn) PDCA 循
27、環(huán)的落地.開發(fā)階段質(zhì)量在開發(fā)階段,平臺提供規(guī)則配置和規(guī)范檢查功能。包括:1)規(guī)則配置;2)規(guī)范檢查。全流程監(jiān)控平臺提供全流程監(jiān)控功能,各層的監(jiān)控包含但不限于以下規(guī)則:1)數(shù)據(jù)來源質(zhì)量監(jiān)控規(guī)則;2)數(shù)據(jù)加工質(zhì)量監(jiān)控規(guī)則(包括臨時表);3)數(shù)據(jù)輸出質(zhì)量監(jiān)控規(guī)則。PDCA優(yōu)化1)P (plan) 計劃,分析現(xiàn)狀,制定質(zhì)量監(jiān)控規(guī)則; 2)D (Do) 執(zhí)行,執(zhí)行監(jiān)控規(guī)則; 3)C (check) 檢查,檢查執(zhí)行結(jié)果是否達到了預定的目標; 4)A (act)修正,對檢查的結(jié)果進行處理,對準確的質(zhì)量監(jiān)控規(guī)則予以標準化。運行階段質(zhì)量運行階段,平臺提供系統(tǒng)自動化保障和質(zhì)量規(guī)則監(jiān)控告警功能。包括:1)質(zhì)量規(guī)則監(jiān)
28、控告警;2)系統(tǒng)自動化保障。平臺功能特性統(tǒng)一調(diào)度提供統(tǒng)一的調(diào)度管理,用于數(shù)據(jù)層和應用層的任務調(diào)度。 在統(tǒng)一調(diào)度下,每個任務都是一個個的數(shù)據(jù)對象,任務的前后關系嚴格按照元數(shù)據(jù)血緣關系進行調(diào)度,實現(xiàn)數(shù)據(jù)從源頭到目標的全程的元數(shù)據(jù)血緣與數(shù)據(jù)調(diào)度的一致性。 在統(tǒng)一調(diào)度下,可進行調(diào)度關系管理、調(diào)度周期管理、調(diào)度狀態(tài)管理和調(diào)度資源管理。調(diào)度狀態(tài)管理提供調(diào)度狀態(tài)查看和控制功能:1)通過列表或圖形化界面,可查看調(diào)度運行過程中任務的狀態(tài);2)提供可對錯誤進行分析和處理的操作;3)提供歷史調(diào)度信息庫;調(diào)度周期管理提供各類不同類型的調(diào)度周期:1)固定調(diào)度;2)定時調(diào)度;調(diào)度關系管理自動和手動的調(diào)度機制,提供調(diào)度關系
29、管理功能,包括:1)調(diào)度關系設置功能;2)調(diào)度關系分析功能;3)調(diào)度重跑最小代價分析功能;4)調(diào)度關系維護功能;調(diào)度資源管理提供調(diào)度資源的管理功能,包括:1)隊列設置;2)并發(fā)數(shù)設置;3)優(yōu)先級設置;4)任務分配;跨平臺統(tǒng)一調(diào)度支持異構(gòu)計算引擎下的任務調(diào)度,能夠按照數(shù)據(jù)流向關系組成數(shù)據(jù)流圖,即不同環(huán)境下的任務,能同時存在于同一數(shù)據(jù)流調(diào)度圖中。平臺功能設計元數(shù)據(jù)管理數(shù)據(jù)架構(gòu)管理數(shù)據(jù)開發(fā)管理數(shù)據(jù)質(zhì)量管理數(shù)據(jù)異常管理數(shù)據(jù)調(diào)度管理數(shù)據(jù)治理運營實施方案數(shù)據(jù)治理實施流程數(shù)據(jù)治理運營方案3數(shù)據(jù)治理運營總體流程數(shù)據(jù)準備準備資產(chǎn)編目數(shù)據(jù)采集規(guī)范設計開發(fā)調(diào)度質(zhì)量監(jiān)控數(shù)據(jù)倉庫數(shù)據(jù)應用數(shù)據(jù)源數(shù)據(jù)湖數(shù)據(jù)倉庫歷史數(shù)據(jù)全量
30、遷移源連接和目標連接遷移作業(yè)運行作業(yè)業(yè)務數(shù)據(jù)增量采集定義增量設置觸發(fā)運行作業(yè)資產(chǎn)數(shù)據(jù)維護數(shù)據(jù)源維護數(shù)據(jù)倉庫數(shù)據(jù)規(guī)范主題設計標準管理碼表管理數(shù)據(jù)標準關系建模維度建模指標管理流程框架業(yè)務指標技術指標腳本開發(fā)批處理作業(yè)實時處理作業(yè)業(yè)務指標監(jiān)控指標規(guī)則業(yè)務場景運行檢查數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則模板作業(yè)質(zhì)量運行檢查數(shù)據(jù)地圖業(yè)務資產(chǎn)技術資產(chǎn)數(shù)據(jù)權(quán)限數(shù)據(jù)安全申請審核創(chuàng)建發(fā)布使用運營數(shù)據(jù)治理運營業(yè)務流程公安系統(tǒng)社保系統(tǒng)教育系統(tǒng)市監(jiān)系統(tǒng)委辦系統(tǒng)各委辦前置庫大數(shù)據(jù)中心-數(shù)據(jù)湖&數(shù)據(jù)庫ODS貼源層DWD基礎庫人口、法人、電子證照、空間地理主題庫互聯(lián)網(wǎng)+監(jiān)管、城市管理、專題庫婚姻死亡、經(jīng)偵、共享庫共享前置庫數(shù)據(jù)歸集清洗加工分發(fā)
31、分發(fā)分發(fā)分發(fā)分發(fā)分發(fā)文件下發(fā)庫表下發(fā)分發(fā)各委辦等政府單位社會機構(gòu)數(shù)據(jù)調(diào)用接口調(diào)用數(shù)據(jù)使用單位基于業(yè)務與管理規(guī)則,進行實施與管控數(shù)據(jù)治理運營數(shù)據(jù)資源歸集庫表歸集:數(shù)據(jù)源為前置庫表信息附件歸集:數(shù)據(jù)源中有照片數(shù)據(jù)或者pdf、word等非結(jié)構(gòu)化數(shù)據(jù)API接口歸集:數(shù)據(jù)通過接口獲取,目前如健康云API接口調(diào)入,以10分鐘的頻率采集文件歸集:數(shù)據(jù)源是不同的文件形式(CSV、excel、TXT、dat)流數(shù)據(jù)歸集:數(shù)據(jù)源為實時流數(shù)據(jù)編制目錄數(shù)據(jù)預處理(清洗、轉(zhuǎn)換、標準化)文件接入服務接口接入庫表接入實時流接入選擇歸集目錄創(chuàng)建歸集任務配置歸集頻率自動掛接資源編目歸集預處理數(shù)據(jù)治理運營基礎庫建設流程大數(shù)據(jù)管理
32、中心委辦局(供給)提出主題庫建設需求開始明確責任需求清單三清單管理確認責任清單共享數(shù)據(jù)推送主題庫應用/數(shù)據(jù)共享結(jié)束委辦局(需求)溝通方案(三方)建主題庫并分配資源主題庫開發(fā)生成資源目錄數(shù)據(jù)治理運營專題/主題應用開發(fā)與運營整合了大數(shù)據(jù)匯聚、整合、融合分析與應用運營能力,建立了垮多委辦之間的協(xié)作機制,打造了一體化全流程主題/專題應用庫建設體系 , 可快速實現(xiàn)從模型構(gòu)建到模型的落地應用,為政府提供高效的基礎/專題/主題庫應用開發(fā)與運營服務。需求立項模型建構(gòu)模型調(diào)優(yōu)模型發(fā)布迭代數(shù)據(jù)服務分析報告模型應用說明政務服務社會服務+模型建構(gòu)模型發(fā)布主/專題應用反饋數(shù)據(jù)匯聚應用發(fā)布模型構(gòu)建數(shù)據(jù)分析參數(shù)調(diào)優(yōu)數(shù)據(jù)預處理模型評估匯聚相關委辦對應數(shù)據(jù)處理空值,屬性值轉(zhuǎn)換分析數(shù)據(jù)與需求相關性選擇合適的算法進行建模調(diào)整數(shù)據(jù)模型參數(shù)基礎/主/專題發(fā)布評估模型準確性,合理性數(shù)據(jù)治理運營數(shù)據(jù)應用開發(fā)通過大數(shù)據(jù)平臺基于用戶信息及用戶行為綜合特征,知識圖譜以及地理空間關聯(lián)特征,進行融合匯聚和深度挖掘關聯(lián)分析,形成多維標簽體系,進而支撐從各類數(shù)據(jù)挖掘應用與開發(fā),實現(xiàn)數(shù)據(jù)價值最大化。大數(shù)據(jù)標簽匯聚與應用開發(fā)能力屬性標簽事件標簽靜態(tài)穩(wěn)定標簽短期時序事件和專題事件車輛屬性:品牌、型號、出廠年份、行駛公里數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 探索化學奧秘:初中化學實驗設計與探究教學大綱
- 在線教育平臺課程研發(fā)手冊
- 農(nóng)業(yè)項目立項申請報告怎么寫
- 部門間往來文書范例與指南
- 農(nóng)業(yè)現(xiàn)代化智能種植大數(shù)據(jù)分析平臺
- 三農(nóng)產(chǎn)品冷鏈物流運作手冊
- 基坑支護工程安全施工方案
- 三農(nóng)產(chǎn)業(yè)發(fā)展規(guī)劃作業(yè)指導書
- 新能源汽車充電樁前景
- 酒店財務管理的技巧和要點作業(yè)指導書
- 《擠壓機械與設備》課件
- 天龍八部礦石分布圖
- 多相流反應器強化技術
- 《非暴力溝通》分享
- 醫(yī)院院長在2023年全院職工代表大會閉幕會上的講話
- 五通一平的施工方案
- 粉煤灰檢測報告
- 《Python程序設計(第3版)》教學大綱(參考)
- 廣西的地理發(fā)展介紹ppt下載
- 深靜脈血栓形成的診斷和治療指南(第三版)
- 軟件工程導論課件(第六版)(張海潘編著)(1-13章)
評論
0/150
提交評論