智慧城市_大數(shù)據(jù)_大數(shù)據(jù)湖體系規(guī)劃與建設方案_第1頁
智慧城市_大數(shù)據(jù)_大數(shù)據(jù)湖體系規(guī)劃與建設方案_第2頁
智慧城市_大數(shù)據(jù)_大數(shù)據(jù)湖體系規(guī)劃與建設方案_第3頁
智慧城市_大數(shù)據(jù)_大數(shù)據(jù)湖體系規(guī)劃與建設方案_第4頁
智慧城市_大數(shù)據(jù)_大數(shù)據(jù)湖體系規(guī)劃與建設方案_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖體系規(guī)劃與建設方案與建設方案目錄背 景:大數(shù)據(jù)湖的發(fā)展背景與建設理念1生態(tài)圈:探索新興業(yè)務入湖建設模式3共 享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃4運 營:大數(shù)據(jù)湖一體化運營管理建設5體 系:大數(shù)據(jù)湖體系規(guī)劃與建設思路2數(shù)據(jù)架構與承載體系的演變過程完整性、一致性、交互穩(wěn)定性,并發(fā)性,異常可恢復性數(shù)據(jù)庫時代關系型數(shù)據(jù)庫解決了信息時代的數(shù)據(jù)資源存儲和管理,實現(xiàn)了電子化的文件柜 采用數(shù)據(jù)模型表示數(shù)據(jù)結構,冗余小 面向事務管理,具有ACID特性 數(shù)據(jù)統(tǒng)一管理和控制,易維護和擴充 程序與數(shù)據(jù)獨立,具有良好用戶接口1數(shù)據(jù)倉庫時代DW研究和解決了從數(shù)據(jù)庫中獲取信息的問題,通過OLAP、數(shù)據(jù)挖掘

2、等幫助企業(yè)決策分析,構建商業(yè)智能(BI) 面向主題的,關注用戶重點業(yè)務 集成的,跨越歷史、區(qū)域、系統(tǒng) 穩(wěn)定的,具有只讀性質(zhì),以查詢?yōu)橹?以時間序列存儲,非規(guī)范化管理2大數(shù)據(jù)平臺時代面對大數(shù)據(jù)5V特點,采用分布式、并行化的存儲和計算架構,提升數(shù)據(jù)處理能力 對象:PB級,80%以上非結構化數(shù)據(jù) 技術:分布式架構、云計算、虛擬化等 CAP原理:CAP BASE 目標:線性擴展、彈性計算、實時響應、動態(tài)調(diào)節(jié)31970 s1990 sBill Inmon提出DW概念E.F.Codd發(fā)明DBMS2000 sGoogle發(fā)布三篇論文存儲經(jīng)濟性、高性能、高擴展、高并發(fā)、靈活模型適配性企業(yè)級跨域整合、業(yè)務擴展性

3、、架構設計合理性、流程規(guī)范性背景:數(shù)據(jù)快速入湖,分析更加智能,應用更加多樣,服務更加開放u 更多企業(yè)數(shù)據(jù)將進入數(shù)據(jù)湖,來自傳統(tǒng)系統(tǒng)的數(shù)據(jù)和傳感器等新型數(shù)據(jù)資源不斷融合,數(shù)據(jù)孤島將繼續(xù)被打破。u 隨著大數(shù)據(jù)分析能力的不斷提高,人工智能的重要性被逐步提升。當今最先進的機器學習和人工智能系統(tǒng)正在超越傳統(tǒng)的基于規(guī)則的算法,創(chuàng)建出能夠理解、學習、預測、適應,甚至可以自主操作的系統(tǒng)。數(shù)據(jù)服務數(shù)據(jù)應用數(shù)據(jù)分析數(shù)據(jù)治理數(shù)據(jù)平臺以更加深度的數(shù)據(jù)開放,跨行業(yè)大數(shù)據(jù)關聯(lián)。以更多樣的應用能力,構建針對性行業(yè)解決方案。數(shù)據(jù)平臺存儲方式向數(shù)據(jù)湖模式轉變,多數(shù)據(jù)匯聚。支持結構化,半結構化和非結構化數(shù)據(jù)多數(shù)據(jù)入湖。入湖即治理

4、,針對性對數(shù)據(jù)源系統(tǒng)輸入數(shù)據(jù)制定入湖標準數(shù)據(jù)驅(qū)動治理規(guī)范,以數(shù)據(jù)為核心實時制定治理規(guī)范。從深度學習到機器學習,從機器學習到人工智能?;跀?shù)據(jù)湖的大量的原始數(shù)據(jù),深度訓練,快速分析智能應用,基于AI與機器學習分析,個性化服務提供。應用快速構建,基于數(shù)據(jù)湖進行細粒度的收集、探索和分析數(shù)據(jù)湖數(shù)據(jù)治理數(shù)據(jù)分析數(shù)據(jù)應用數(shù)據(jù)服務數(shù)據(jù)驅(qū)動規(guī)范,入湖標準制定人工智能分析,直引湖中數(shù)據(jù)大數(shù)據(jù)發(fā)展趨勢分析應用更加智能,構建更加快速深度數(shù)據(jù)開放,針對方案制定數(shù)據(jù)湖產(chǎn)生背景及概念提出企業(yè)現(xiàn)在正處于大數(shù)據(jù)的企業(yè)現(xiàn)在正處于大數(shù)據(jù)的“焦慮期焦慮期”p存儲成本問題:海量數(shù)據(jù)需要在多環(huán)境、多級下重復存儲,存儲開銷大p數(shù)據(jù)形態(tài)問

5、題:應用大多聚焦在經(jīng)過加工后的再生數(shù)據(jù),原始數(shù)據(jù)無法得到充分利用p業(yè)務響應問題:必須事先進行充分規(guī)劃和較長周期加工,欠缺運營所需的靈活性和時效性數(shù)據(jù)集市數(shù)據(jù)湖問題問題 ?挑戰(zhàn)挑戰(zhàn) ?變革變革 !數(shù)據(jù)湖一詞是數(shù)據(jù)湖一詞是20112011年由年由PentahoPentaho首席技術官詹姆斯首席技術官詹姆斯 迪克森最初提出的,參照迪克森最初提出的,參照“ “數(shù)據(jù)集市數(shù)據(jù)集市” ”得來。得來。較小的數(shù)據(jù)存儲庫如同瓶裝水,經(jīng)過過濾包裝結構化后以供使用數(shù)據(jù)來源于不同地方如同湖泊,存儲更自然狀態(tài)下的大量的水n 預先設定問題n 使用方式單一n 集中存儲+無限能力n 用戶各取所需把不同結構的數(shù)據(jù)把不同結構的數(shù)據(jù)

6、統(tǒng)一存儲統(tǒng)一存儲,使不同數(shù)據(jù)有一致,使不同數(shù)據(jù)有一致的存儲方式,在使用時的存儲方式,在使用時方便連接方便連接,真正解決,真正解決數(shù)據(jù)數(shù)據(jù)集成集成問題。問題。n全部采集(Collect Everything)n隨處研究(Dive In Anywhere)n靈活訪問(Flexible Access)數(shù)據(jù)湖的定義與特性存儲一切,分析一切,創(chuàng)建所需數(shù)據(jù)湖數(shù)據(jù)湖(Data LakeData Lake)核心思想核心思想 把你以前在磁帶上擁有的東西倒入到數(shù)據(jù)湖,然后開始探索該數(shù)據(jù)。重要的 只把需要的數(shù)據(jù)倒入到Hadoop;如果你想結合來自數(shù)據(jù)湖的信息和客戶關系 管理系統(tǒng)(CRM)里面的信息,我們就進行連接,

7、只有需要時才執(zhí)行這番數(shù) 據(jù)結合。 數(shù)據(jù)湖是一種在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法,它有助于以各種 模式和結構形式配置數(shù)據(jù),通常是對象塊或文件。湖中的數(shù)據(jù)包括結構化數(shù)據(jù) 從關系數(shù)據(jù)庫(行和列),半結構化數(shù)據(jù)(CSV、XML、JSON的日志),非 結構化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像、音頻、視頻)從 而形成一個集中式數(shù)據(jù)存儲容納所有形式的數(shù)據(jù)。詹姆斯詹姆斯 迪迪克克森森維基百科維基百科從對比中理解數(shù)據(jù)湖概念 優(yōu)勢篇對比項數(shù)據(jù)倉庫數(shù)據(jù)湖支持數(shù)據(jù)類型有限的數(shù)據(jù)類型支持,以結構化為主支持結構化,半結構化和非結構化數(shù)據(jù)數(shù)據(jù)采集方式過程開始于業(yè)務流程識別,通常由數(shù)據(jù)管理者和業(yè)務負責人

8、基于數(shù)據(jù)和業(yè)務的某種假設在數(shù)據(jù)湖世界里,沒有關于已經(jīng)取得的數(shù)據(jù)假設。一旦數(shù)據(jù)發(fā)生,即開始在細粒度級別收集數(shù)據(jù)。業(yè)務流程發(fā)現(xiàn)基于數(shù)據(jù)與輸入數(shù)據(jù)數(shù)據(jù)處理能力寫入模式,建立模型對數(shù)據(jù)進行某類格式和結構的處理,為了減少數(shù)據(jù)的復雜性,比較難于實現(xiàn)上卷(Roll up)和鉆取(Drill down)分析,該設計可能需要妥協(xié)一定粒度的數(shù)據(jù)讀取模式,接受原始形式的數(shù)據(jù),在數(shù)據(jù)細粒度級別收集、探索和分析非常簡單架構重建能力數(shù)據(jù)庫架構演變需要謹慎,過程耗時,成本較高,影響較大,需要對原有數(shù)據(jù)進行重構不存在結構問題,支持復雜數(shù)據(jù)類型,便于重置數(shù)據(jù)模型、查詢和應用,并具有簡單的重建關系的能力動態(tài)性敏捷性差,采用靜態(tài)固

9、定配置,基于業(yè)務流程驅(qū)動而設計系統(tǒng)高度敏捷,動態(tài)靈活配置,基于數(shù)據(jù)的業(yè)務流程定義擴展性提供預定義的業(yè)務需求點燃創(chuàng)新和新的商業(yè)機會從對比中理解數(shù)據(jù)湖概念 劣勢篇對比項對比項數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)湖數(shù)據(jù)規(guī)劃體系具有周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉換的數(shù)據(jù)計劃周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉換的數(shù)據(jù)計劃,易于突顯數(shù)據(jù)價值不太重視事先的數(shù)據(jù)規(guī)劃,允許存儲任何數(shù)據(jù),難以抓取數(shù)據(jù)價值難以抓取數(shù)據(jù)價值數(shù)據(jù)利用效率數(shù)據(jù)利用率高數(shù)據(jù)利用率高,按數(shù)據(jù)優(yōu)先級和數(shù)據(jù)可用性的大小進行組織,可以快速定快速定位所需數(shù)據(jù)位所需數(shù)據(jù)數(shù)據(jù)利用率低,缺少數(shù)據(jù)優(yōu)先級排序缺少數(shù)據(jù)優(yōu)先級排序,需要花費大量時間查找和分析前的準備數(shù)據(jù)需求響

10、應能力具有較高的需求響應能力較高的需求響應能力,可以保證平穩(wěn)高效的數(shù)據(jù)訪問數(shù)據(jù)響應延遲較高響應延遲較高,整個分析過程容易中斷復雜性和難度較低,建設規(guī)模與成本可控很高,建設難度與規(guī)模呈線性增長趨勢,隱性成本較高邏輯可解釋性數(shù)據(jù)組織邏輯性強,數(shù)據(jù)關系可解釋性較高欠缺語義一致性和嚴格的元數(shù)據(jù),數(shù)據(jù)關系較為松散,難以解釋安全性多年發(fā)展歷程,保護數(shù)據(jù)的能力比較成熟比較新的技術,需要持續(xù)完善適用對象企業(yè)的業(yè)務行家和專業(yè)人員,技術門檻低技術門檻低面向熟練用戶、科學領域的數(shù)據(jù)科學家,技術門檻高技術門檻高潛在風險潛在風險數(shù)據(jù)湖數(shù)據(jù)湖數(shù)據(jù)沼澤數(shù)據(jù)沼澤數(shù)據(jù)湖是大數(shù)據(jù)概念的延伸p 多樣化的數(shù)據(jù)存儲p 高效的數(shù)據(jù)處理p

11、 存儲全部數(shù)據(jù)p 處理任何數(shù)據(jù)p 訪問任何數(shù)據(jù)數(shù)據(jù)能力要求n 支持所有用戶n 更容易適應變化n 更快的洞悉能力IT能力要求數(shù)據(jù)湖的能力視圖數(shù)據(jù)湖并非是個全新概念1. “數(shù)據(jù)湖”是關于企業(yè)應用大數(shù)據(jù)的概念,是面向企業(yè)的最佳的大數(shù)據(jù)的解決方案2. “數(shù)據(jù)湖”不僅是數(shù)據(jù)存儲和處理的單元,也是釋放數(shù)據(jù)價值的過程3. 企業(yè)大數(shù)據(jù)應用成功的關鍵并不是存儲所有的數(shù)據(jù),而是要創(chuàng)建一個更有意義的“數(shù)據(jù)湖”,幫助企業(yè)加速提取高價值數(shù)據(jù)的速度4. 數(shù)據(jù)湖是大數(shù)據(jù)發(fā)展方向上的高級階段大數(shù)據(jù)發(fā)展方向上的高級階段,是一種建設理一種建設理念,念,而不是一種特定的實施方法5. “數(shù)據(jù)湖”是個架構概念,是數(shù)據(jù)倉庫的一種演進,是

12、一種大數(shù)據(jù)概念下的延伸大數(shù)據(jù)概念下的延伸數(shù)據(jù)湖概念上的甄別1、用于安置企業(yè)所有數(shù)據(jù)的一個數(shù)據(jù)倉庫或數(shù)據(jù)集市2、替代運營數(shù)據(jù)存儲(ODS)3、高性能的生產(chǎn)環(huán)境4、生產(chǎn)型報表的應用程序5、一個專門建立的系統(tǒng)來解決一個特定的問題(盡管專門建立的數(shù)據(jù)集市可以從數(shù)據(jù)湖中提供)1、用戶可以訪問大量原始數(shù)據(jù)的環(huán)境2、一個開發(fā)和驗證分析模型的環(huán)境,然后將其轉化為生產(chǎn)3、用于探索數(shù)據(jù)以獲得洞察力的分析沙箱4、企業(yè)級目錄,可幫助用戶查找數(shù)據(jù)并將業(yè)務術語與技術元數(shù)據(jù)鏈接起來5、一個支持重用數(shù)據(jù)轉換和查詢的環(huán)境數(shù)據(jù)湖是數(shù)據(jù)湖是數(shù)據(jù)湖數(shù)據(jù)湖不不是是數(shù)據(jù)湖體系的架構規(guī)劃HadoopHadoop不一定是數(shù)據(jù)湖的組成部分,只

13、是它是目前最理想的選擇不一定是數(shù)據(jù)湖的組成部分,只是它是目前最理想的選擇!數(shù)據(jù)湖的邏輯架構數(shù)據(jù)湖的數(shù)據(jù)架構p 持久層(持久層(PersitentPersitent Layer Layer):):存放所有從內(nèi)部和外部獲取的結構化、半結構化和非結構化數(shù)據(jù)p 分析沙箱(分析沙箱(Analytics SandboxAnalytics Sandbox):):數(shù)據(jù)科學家和分析師被授予持久層的訪問權限并使用進行數(shù)據(jù)研究和實驗p 探索數(shù)據(jù)源(探索數(shù)據(jù)源(CuratedCurated):):數(shù)據(jù)分析師會將有商業(yè)價值的數(shù)據(jù)進行處理并創(chuàng)建新的數(shù)據(jù)源以提供給業(yè)務分析師p 可操作層(可操作層(Operational l

14、ayerOperational layer):):業(yè)務分析師繼續(xù)精煉已處理過的數(shù)據(jù),和數(shù)據(jù)管理團隊一起將這些數(shù)據(jù)轉換為更為容易操作和使用的數(shù)據(jù),存放之以便得到更廣泛的使用數(shù)據(jù)湖建設的四個階段p 整合數(shù)據(jù)湖基礎設施p 可擴展的數(shù)據(jù)處理和攝入p 數(shù)據(jù)目錄管理趨于完善p EDW與Data Lake協(xié)作p 對外生產(chǎn)價值輸送能力p 數(shù)據(jù)服務和運營管理能力p 端到端的業(yè)務支撐能力p 穩(wěn)定的成熟度服務架構p 靈活完善的企業(yè)運營模式p 分析能力增強p 優(yōu)化探索環(huán)境p 豐富價值發(fā)現(xiàn)模型價值挖掘階段基礎架構階段成熟運營階段協(xié)作交互階段01020304大多數(shù)企業(yè)處于前三個階段的建設和完善過程中建設難點與風險建設難點

15、與風險數(shù)據(jù)湖關鍵點數(shù)據(jù)湖關鍵點數(shù)據(jù)湖體系的建設要點與風險分析靈活自動化的采集與存儲組織和編目數(shù)據(jù)管理統(tǒng)一的透明訪問方式數(shù)據(jù)質(zhì)量和可靠性無感知的分布式架構(存儲、計算、網(wǎng)絡)企業(yè)全局數(shù)據(jù)的掌握與預測統(tǒng)一元數(shù)據(jù)規(guī)范和管控能力業(yè)務關聯(lián)場景的數(shù)據(jù)理解系統(tǒng)化的質(zhì)量管控體系分布技術的規(guī)劃和擴展能力參考:來自參考:來自實踐中數(shù)據(jù)湖建設內(nèi)容實踐中數(shù)據(jù)湖建設內(nèi)容業(yè)界主流公司的數(shù)據(jù)湖規(guī)劃 HortonworksHortonworks 公司基于基于 Hadoop 生態(tài)生態(tài)構建的數(shù)據(jù)湖提出的現(xiàn)代化數(shù)據(jù)架構(Morden Data Architecture),從南向北包含四個層面:數(shù)據(jù)采集層(數(shù)據(jù)采集層(Data Ac

16、quisition Layer) 數(shù)據(jù)采集層負責從數(shù)據(jù)源抽取和移動數(shù)據(jù),并將數(shù)據(jù)存放到數(shù)據(jù)湖中。采集的數(shù)據(jù)源包括傳統(tǒng)的關系型或事務型系統(tǒng)、用戶獲取的數(shù)據(jù)、非結構化或半結構化數(shù)據(jù)、外部數(shù)據(jù)或流數(shù)據(jù)等。 數(shù)據(jù)監(jiān)管層(數(shù)據(jù)監(jiān)管層(Data Curation Layer) 數(shù)據(jù)監(jiān)管層負責數(shù)據(jù)湖中的數(shù)據(jù)組織、定型并為其他層提供消費,包含數(shù)據(jù)標準化流程制定,數(shù)據(jù)創(chuàng)建、脫敏、清洗、轉換、維護、管理和展現(xiàn)等工作。 數(shù)據(jù)供應層(數(shù)據(jù)供應層(Data Provisioning Layer) 數(shù)據(jù)供應層采用更適用于業(yè)務報表和分析的傳統(tǒng)數(shù)據(jù)儲存方式,使用OLAP、數(shù)據(jù)倉庫和數(shù)據(jù)集市降低數(shù)據(jù)消費的復雜度并提供快速的交互

17、式查詢和分析。 數(shù)據(jù)消費層(數(shù)據(jù)消費層(Data Consumption Layer) 數(shù)據(jù)消費層提供所有最終用戶的接口,對于不同用戶對數(shù)據(jù)的需求,大量和多元化的工具和技術會被用于該層。業(yè)界主流公司對于數(shù)據(jù)湖的規(guī)劃 IBMIBM 公司提出的數(shù)據(jù)湖架構,包括六大關鍵部件:一 數(shù)據(jù)湖資源庫按照數(shù)據(jù)特點進行原始格式的分類存儲庫二 企業(yè)IT交互統(tǒng)一提供企業(yè)生產(chǎn)側系統(tǒng)與數(shù)據(jù)湖資源庫的靈活交互,快速配置能力三 原始數(shù)據(jù)交互為數(shù)據(jù)價值發(fā)現(xiàn)提供安全的資源分析訪問接口與試驗環(huán)境四 目錄接口唯一權威的數(shù)據(jù)湖元數(shù)據(jù)發(fā)布和訪問模式五 基于可視化的交互統(tǒng)一可視化的業(yè)務應用交互接口和沙箱環(huán)境六 信息集成與治理集成的數(shù)據(jù)湖

18、運營管理工具與環(huán)境目錄背 景:大數(shù)據(jù)湖的發(fā)展背景與建設理念1生態(tài)圈:探索新興業(yè)務入湖建設模式3共 享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃4運 營:大數(shù)據(jù)湖一體化運營管理建設5體 系:大數(shù)據(jù)湖體系規(guī)劃與建設思路2生產(chǎn)型系統(tǒng)分析型系統(tǒng)數(shù)據(jù)接入數(shù)據(jù)存儲生產(chǎn)數(shù)據(jù)(1+N) 操作/臨時存儲原生數(shù)據(jù)(1+N) 就近/分域存儲應用數(shù)據(jù)(N) 分區(qū)建設內(nèi)部應用計算處理整合數(shù)據(jù)(1) 全網(wǎng)/分層支撐協(xié)同計算引擎實時檢索和流處理引擎結構化數(shù)據(jù) (數(shù)據(jù)庫/格式文件等) 半結構化數(shù)據(jù) (XML/TXT等)非結構化數(shù)據(jù) (語音、視頻等)統(tǒng)一索引層計算側cache生產(chǎn)系統(tǒng)駐留統(tǒng)一接入配置生態(tài)圈系統(tǒng)PB級存儲OracleMySqlH

19、DFSHbaseGreenplumTXTTB級計算訪問共享API數(shù)據(jù)沙箱訪問接口(JDBC、ODBC)同源異構訪問挖掘工具交互分析OLAP應用構建工具生產(chǎn)直采前置采集存儲計算加速離線批處理引擎交互式查詢引擎計算資源調(diào)度IOT接入BSSOSSMSS網(wǎng)絡/平臺生態(tài)圈同步鏡像運營管控采集接入規(guī)范源數(shù)據(jù)提供規(guī)范數(shù)據(jù)分類規(guī)范數(shù)據(jù)模型規(guī)范元字典規(guī)范資源申請規(guī)范計算調(diào)度規(guī)范訪問接入規(guī)范數(shù)據(jù)共享標準生產(chǎn)模型規(guī)范數(shù)據(jù)湖統(tǒng)一目錄邏輯化視圖緩存加速統(tǒng)一數(shù)據(jù)服務代理(Data Broker)統(tǒng)一數(shù)據(jù)接入跨架構數(shù)據(jù)聯(lián)邦存儲規(guī)范數(shù)據(jù)安全規(guī)范角色權限規(guī)范運營管理規(guī)范資源池化 彈性伸縮自動調(diào)度 按需使用應用專區(qū)省分專區(qū)生態(tài)圈

20、專區(qū)源端系統(tǒng)可視化定義 即配即用透明化部署 實時接入調(diào)度平臺工具外部系統(tǒng)互聯(lián)網(wǎng)合作伙伴大吞吐管道服務對象外部系統(tǒng)互聯(lián)網(wǎng)網(wǎng)絡爬蟲主數(shù)據(jù)(1) 全網(wǎng)統(tǒng)一大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖存儲能力規(guī)劃統(tǒng)一標準/分區(qū)存儲制定全集團統(tǒng)一數(shù)據(jù)標準,采取分域分類的數(shù)據(jù)入湖策略,構建生產(chǎn)、原生、整合/應用、專區(qū)等分區(qū)數(shù)據(jù)存儲及計算能力,實現(xiàn)數(shù)據(jù)原生入湖、按需使用的宗旨,為全國1+31省提供應用數(shù)據(jù)服務能力,注智生產(chǎn)激發(fā)生產(chǎn)力。數(shù)據(jù)存儲數(shù)據(jù)接入數(shù)據(jù)訪問運營管理數(shù)據(jù)計算計算資源管理資源池化,彈性技術自動調(diào)度,按需使用實時流式離線批量內(nèi)存計算及緩存機器學習交互式查詢協(xié)同計算非結構化計算存儲資源管理結構化數(shù)據(jù)半結構化數(shù)據(jù)(日志

21、/XML文件等)非結構化數(shù)據(jù)(文件/圖片/音頻/視頻等)省份專區(qū)生態(tài)圈 專區(qū)內(nèi)蒙生產(chǎn)數(shù)據(jù)區(qū)原生數(shù)據(jù)區(qū)整合數(shù)據(jù)區(qū)實體關聯(lián)視圖主數(shù)據(jù)區(qū)省份B/O側生產(chǎn)系統(tǒng)集團橫向系統(tǒng)生態(tài)圈生產(chǎn)系統(tǒng)網(wǎng)絡/平臺生產(chǎn)系統(tǒng)(前置預處理)編碼統(tǒng)一轉換實體對齊客戶產(chǎn)品渠道營銷資源服務自然人貴州河北遼寧寧夏互聯(lián)網(wǎng)金融智能連接智慧家庭物聯(lián)網(wǎng)新興ICT人員組織資源產(chǎn)品客戶BSS原生數(shù)據(jù)OSS原生數(shù)據(jù)MSS原生數(shù)據(jù)網(wǎng)絡/平臺數(shù)據(jù)集團橫向數(shù)據(jù)生態(tài)圈-ICT生態(tài)圈-金融存儲分區(qū)原則:p 生產(chǎn)數(shù)據(jù)區(qū):遵循電信集團數(shù)據(jù)建模標準及主數(shù)據(jù)規(guī)范要求;規(guī)范層面屬于大數(shù)據(jù)湖范疇,物理資源層面可采用湖資源也可自建;p 原生數(shù)據(jù)區(qū):分域分類存儲生產(chǎn)數(shù)據(jù);

22、將非標準數(shù)據(jù)做標準化轉化;p 整合數(shù)據(jù)區(qū):采用大數(shù)據(jù)挖掘等技術進行實體歸集補全;構建實體關聯(lián)視圖;p 主數(shù)據(jù)區(qū):存儲企業(yè)級全網(wǎng)主數(shù)據(jù),大數(shù)據(jù)主數(shù)據(jù)唯一提供者;p 應用專區(qū):本著數(shù)據(jù)不出湖,充分挖掘數(shù)據(jù)價值原則,為使用者提供基于自有、原生、整合數(shù)據(jù)的處理空間,面向應用開展數(shù)據(jù)處理工作;大數(shù)據(jù)湖原生數(shù)據(jù)區(qū)規(guī)劃原生入湖/分類存儲/按需使用以原生入湖分類存儲按需使用為宗旨,分域分類存儲按周期存儲原生數(shù)據(jù),為云公司、集團ODS、省份大數(shù)據(jù)平臺提供原生數(shù)據(jù)共享服務,為湖內(nèi)整合數(shù)據(jù)區(qū)、應用數(shù)據(jù)區(qū)提供原生數(shù)據(jù)服務。原生數(shù)據(jù)區(qū)生態(tài)圈數(shù)據(jù)網(wǎng)絡/平臺數(shù)據(jù)集團橫向數(shù)據(jù)BSS數(shù)據(jù)OSS數(shù)據(jù)MSS數(shù)據(jù)EDA數(shù)據(jù)共享服務數(shù)

23、據(jù)生產(chǎn)系統(tǒng)BSS系統(tǒng)OSS系統(tǒng)MSS系統(tǒng)EDA系統(tǒng)集團橫向系統(tǒng)生態(tài)圈系統(tǒng)網(wǎng)絡/平臺系統(tǒng)原生入湖預處理入湖數(shù)據(jù)共享原生數(shù)據(jù)專區(qū)共享原生數(shù)據(jù)整合共享數(shù)據(jù)整合區(qū)數(shù)據(jù)專區(qū)實體關聯(lián)視圖共享互聯(lián)網(wǎng)金融智能連接智慧家庭物聯(lián)網(wǎng)新興ICT應用枝繁葉茂類翼支付甜橙欺詐盾IWIFI統(tǒng)一賬號NFC產(chǎn)品4G-QoS云堤流量控海洋衛(wèi)星寬帶天翼網(wǎng)關智能組網(wǎng)視頻通話聚精彩車管專家樂駕天翼云盤企業(yè)云189郵箱翼校通翼機通+天翼對講旺鋪助手外勤助手號簿助手手機看店愛音樂天翼視訊天翼閱讀愛游戲愛動漫天翼空間易信新視通4G家庭云安全辦公專屬云加密通道影像云21CN地產(chǎn)大數(shù)據(jù)語音云旅游大數(shù)據(jù)移動感知DPI4G分組域話單固網(wǎng)DPI日志留

24、存DPIOIDDMR/CDRPM/CM 智能網(wǎng)管電渠悅ME商機行業(yè)短信ODMS量化微信易信號百4G數(shù)據(jù)集約積分政企KPI渠道終端CRM計費客戶服務PPMVSOP綜合資源采購輔助財務輔助工程輔助ERP人力久其裝維EDA直采省+集團電渠服務量省份專區(qū)生態(tài)圈專區(qū)實體關聯(lián)視圖編碼標準化實體對齊移動/固網(wǎng)DPIOIDDMR/CDRCM/CP計費詳單HANA數(shù)據(jù)ODMS翼支付集約積分主數(shù)據(jù)區(qū)大數(shù)據(jù)湖整合數(shù)據(jù)區(qū)規(guī)劃構建企業(yè)級核心實體關聯(lián)視圖p 保存原子性:整合數(shù)據(jù)區(qū)數(shù)據(jù)不做聚合操作,保持數(shù)據(jù)原子性,不影響專區(qū)應用指標加工處理;p 實體補齊性:對核心實體根據(jù)不同原生數(shù)據(jù)進行屬性補齊;p 實體關聯(lián)性:面向?qū)嶓w全

25、業(yè)務流程數(shù)據(jù),整合各域數(shù)據(jù)實現(xiàn)實體跨域關聯(lián)視圖;p 共享一致性:按照湖應用的使用需求進行共性提煉,實現(xiàn)統(tǒng)一的公共寬表建設;整合數(shù)據(jù)區(qū)完成數(shù)據(jù)清洗、編碼轉換、實體對齊及構建企業(yè)級核心實體關聯(lián)視圖,為應用專區(qū)提供整合數(shù)據(jù)服務。整合數(shù)據(jù)區(qū)保持數(shù)據(jù)原子性粒度,不對數(shù)據(jù)做聚合處理,不影響業(yè)務專區(qū)業(yè)務指標加工處理。實體對齊實體關聯(lián)視圖參與營銷活動產(chǎn)品訂購資源配給上門服務用戶投訴修障維護用戶使用存量經(jīng)營用戶出賬產(chǎn)品實體跨域關聯(lián)視圖構建BSS數(shù)據(jù)l 客戶信息 l 訂購信息OSS數(shù)據(jù)MSS數(shù)據(jù)網(wǎng)絡/平臺l 裝維信息l 開通信息l 傭金結算l 成本信息l 用戶投訴率l 行為數(shù)據(jù)l 質(zhì)量數(shù)據(jù)l消費信息l服務信息l資

26、源數(shù)據(jù)l報障數(shù)據(jù)l財務收入l補貼數(shù)據(jù)客戶產(chǎn)品渠道營銷資源服務合作伙伴核心實體自然人lCP/SP訂購l位置信息 自然人員工組織地域政企客戶合作伙伴數(shù)據(jù)清洗外部數(shù)據(jù)管理規(guī)則管理實體沉淀聚合管理沖突管理大數(shù)據(jù)湖應用數(shù)據(jù)專區(qū)規(guī)劃面向應用的自建自維數(shù)據(jù)專區(qū)p 獨立性:保證資源獨立性、數(shù)據(jù)獨立性、應用獨立性;p 可用性:保證存儲、計算、數(shù)據(jù)資源高可用性及穩(wěn)定性;確保專區(qū)資源可在線、平滑擴展;p 易用性:提供豐富的可視化開發(fā)及專區(qū)運營工具;p 可管理性:大數(shù)據(jù)湖對專區(qū)具備監(jiān)控、審計能力;p 數(shù)據(jù)服務性:專區(qū)數(shù)據(jù)可以數(shù)據(jù)形式服務,也可開發(fā)應用直接鏈接調(diào)用;大數(shù)據(jù)湖為業(yè)務應用場景提供具有數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)

27、服務及數(shù)據(jù)應用訪問能力的應用專區(qū),用戶可自行獲取數(shù)據(jù),面向特定應用場景完成數(shù)據(jù)加工處理;大數(shù)據(jù)湖提供專區(qū)申請及監(jiān)控管理,以保證專區(qū)健康、有價運營。數(shù)據(jù)接入源端生產(chǎn)系統(tǒng)/數(shù)據(jù)倉庫省份專區(qū)應用生態(tài)圈專區(qū)應用其它專區(qū)應用應用數(shù)據(jù)專區(qū)專區(qū)管理整合數(shù)據(jù)區(qū)主數(shù)據(jù)區(qū)省份專區(qū)-內(nèi)蒙自有數(shù)據(jù)原生數(shù)據(jù)整合區(qū)數(shù)據(jù)應用數(shù)據(jù)專區(qū)申請專區(qū)審批專區(qū)劃分專區(qū)變更專區(qū)回收運營監(jiān)控資源利用率數(shù)據(jù)處理規(guī)范性使用頻度應用成果評估安全性監(jiān)控省份專區(qū)-生態(tài)圈專區(qū)-原生數(shù)據(jù)區(qū)實時采集 批量采集 消息采集共享訪問大數(shù)據(jù)湖主數(shù)據(jù)區(qū)規(guī)劃 企業(yè)級核心/統(tǒng)一運營保障主數(shù)據(jù)區(qū)負責存儲全域主數(shù)據(jù),并確保與主數(shù)據(jù)生產(chǎn)者保持同步,為大數(shù)據(jù)湖各區(qū)提供唯一主數(shù)

28、據(jù)源,以保證湖中企業(yè)級核心實體數(shù)據(jù)的一致性和完整性,提升大數(shù)據(jù)湖運營效率及效果。p 統(tǒng)一主數(shù)據(jù)標準:面向全國各域各生產(chǎn)系統(tǒng)提供主數(shù)據(jù)標準;p 統(tǒng)一主數(shù)據(jù)存儲:面向大數(shù)據(jù)湖提供統(tǒng)一主數(shù)據(jù)存儲能力;p 統(tǒng)一主數(shù)據(jù)整合:清洗整合各域主數(shù)據(jù),形成統(tǒng)一、標準、唯一主數(shù)據(jù);p 統(tǒng)一主數(shù)據(jù)服務:為大數(shù)據(jù)湖中各區(qū)提供主數(shù)據(jù)服務;數(shù)據(jù)接入生產(chǎn)數(shù)據(jù)入湖主數(shù)據(jù)區(qū)主數(shù)據(jù)管理主數(shù)據(jù)整合主數(shù)據(jù)目錄主數(shù)據(jù)共享主數(shù)據(jù)評估客戶產(chǎn)品渠道訂單主數(shù)據(jù)組織數(shù)據(jù)專區(qū)集團橫向生產(chǎn)系統(tǒng)省份BMO生產(chǎn)系統(tǒng)網(wǎng)絡/平臺系統(tǒng)生態(tài)圈生產(chǎn)系統(tǒng)其他系統(tǒng)整合數(shù)據(jù)區(qū)原生數(shù)據(jù)區(qū)原生數(shù)據(jù)服務專區(qū)主數(shù)據(jù)入湖主數(shù)據(jù)主數(shù)據(jù)整合數(shù)據(jù)原生數(shù)據(jù)省份專區(qū)生態(tài)圈專區(qū)內(nèi)蒙貴州河北

29、遼寧寧夏金融智能連接智慧家庭物聯(lián)網(wǎng)新興ICT目錄背 景:大數(shù)據(jù)湖的發(fā)展背景與建設理念1生態(tài)圈:探索新興業(yè)務入湖建設模式3共 享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃4運 營:大數(shù)據(jù)湖一體化運營管理建設5體 系:大數(shù)據(jù)湖體系規(guī)劃與建設思路2已建新建生態(tài)圈系統(tǒng)大數(shù)據(jù)湖數(shù)據(jù)接入智能連接智慧家庭互聯(lián)網(wǎng)金融新興ICT物聯(lián)網(wǎng)生產(chǎn)系統(tǒng)駐留生產(chǎn)直采前置采集IOT接入同步鏡像iWIFI海洋寬帶天翼高清天翼網(wǎng)關智能組網(wǎng)翼支付甜橙欺詐盾天翼云盤189郵箱家庭云地產(chǎn)大數(shù)據(jù)物聯(lián)網(wǎng)卡車管專家數(shù)據(jù)湖采集一站式配置采集源連接 / 采集方式(FTP/API/流式/)采集類型(全量/增量)/ 采集計劃 / 采集存儲數(shù)據(jù)存儲生產(chǎn)副本(已建)生

30、產(chǎn)正本(新建)原生數(shù)據(jù)智能連接智慧家庭互聯(lián)網(wǎng)金融物聯(lián)網(wǎng)新興ICT整合數(shù)據(jù)統(tǒng)一賬號客戶特征行為軌跡應用數(shù)據(jù)地產(chǎn)大數(shù)據(jù)專區(qū)車管專家營銷云盤客戶洞察金融欺詐分析專區(qū)家庭圈畫像計算處理實時流處理引擎StromSpark streaming離線批處理引擎HiveMPP機器學習引擎R圖數(shù)據(jù)庫協(xié)同計算引擎Data Broker內(nèi)存計算引擎Redis計算資源按需動態(tài)調(diào)配計算需求分類 / 資源隊列管控 / 租戶任務管理 計算規(guī)模 / 優(yōu)先級別 / 時間窗規(guī)劃 訪問共享智慧家庭新興ICT智能連接IPTV用戶流量軌跡客戶感知數(shù)據(jù)互聯(lián)網(wǎng)金融翼支付合作商戶客戶金融特征支付風險識別物聯(lián)網(wǎng)終端設備列表客戶故障記錄生態(tài)圈統(tǒng)一

31、共享目錄生態(tài)圈客戶數(shù)據(jù) / 特征畫像數(shù)據(jù) / 客戶感知數(shù)據(jù) / 生態(tài)圈原生數(shù)據(jù) / 主數(shù)據(jù) / 整合數(shù)據(jù) / 專區(qū)數(shù)據(jù)生態(tài)運營協(xié)同生態(tài)資源互換生態(tài)精準營銷生態(tài)創(chuàng)新發(fā)現(xiàn)生態(tài)圈應用APIJDBCODBC沙箱共性基礎數(shù)據(jù)專業(yè)應用數(shù)據(jù)基于大數(shù)據(jù)湖的生態(tài)圈建設模式生態(tài)圈入湖指導原則p 核心生態(tài)圈數(shù)據(jù)量龐大、繁雜,同時入庫對計算資源、并行處理能力、運營效率提出了極大的要求,基于此,應構建科學、完整的入湖流程及標準,保證生態(tài)圈數(shù)據(jù)能夠順利、高效的入湖并發(fā)揮效果目標驅(qū)動入湖原則p 貼近實際:充分融合業(yè)務需求,遵循業(yè)務優(yōu)先原則p 計算效率:充分保證數(shù)據(jù)質(zhì)量,讓計算效率顯著提升p 邊際效益:合理控制數(shù)據(jù)入湖速度、

32、在成本控制的前提下,實現(xiàn)效益最大化p 生態(tài)創(chuàng)新:數(shù)據(jù)、業(yè)務、需求間的融會貫通,實現(xiàn)生態(tài)圈的關聯(lián)及衍生場景業(yè)務驅(qū)動數(shù)據(jù)分類 了解生態(tài)業(yè)務關鍵概念生態(tài)核心資料1 掌握生態(tài)整體經(jīng)營狀況生態(tài)經(jīng)營數(shù)據(jù)2 開展生態(tài)業(yè)務數(shù)字化營銷生態(tài)營銷數(shù)據(jù)3 實現(xiàn)生態(tài)管理運營一體化生態(tài)管理數(shù)據(jù)4 開拓生態(tài)業(yè)務智慧創(chuàng)新生態(tài)協(xié)同數(shù)據(jù)5價值驅(qū)動入湖邏輯維度說明權重系數(shù)優(yōu)先級準確性數(shù)據(jù)準確無誤0.282高完整性數(shù)據(jù)完整0.213中一致性數(shù)據(jù)記錄規(guī)范0.087低及時性數(shù)據(jù)獲取及時0.234中價值性數(shù)據(jù)價值0.235高復用性關聯(lián)性0.347高生態(tài)圈數(shù)據(jù)入湖原則p 優(yōu)先滿足日常運營管理p 業(yè)務價值雙驅(qū)動同步p 先核心后邊際再全貌p 先

33、難后易p 先生態(tài)高于業(yè)務次高于運營管理主數(shù)據(jù) 客戶數(shù)據(jù) 產(chǎn)品數(shù)據(jù) 賬戶數(shù)據(jù) .經(jīng)營數(shù)據(jù) 收入數(shù)據(jù) 發(fā)展數(shù)據(jù) 繳費數(shù)據(jù) .營銷數(shù)據(jù) 業(yè)務訂購數(shù)據(jù) 紅包數(shù)據(jù) 金融消費數(shù)據(jù) .管理數(shù)據(jù) 財務數(shù)據(jù) 成本/補貼數(shù)據(jù) 資源/庫存數(shù)據(jù) 業(yè)態(tài)生產(chǎn)數(shù)據(jù) 原始數(shù)據(jù) 生態(tài)協(xié)同數(shù)據(jù) 業(yè)務流程數(shù)據(jù) .解決生產(chǎn)經(jīng)營看數(shù):以生態(tài)圈應用和價值提升需求為導向,優(yōu)先將客戶、經(jīng)營、營銷、管理、生產(chǎn)方面的核心主數(shù)據(jù)入湖,滿足當前業(yè)務發(fā)展和管理需求階段一主數(shù)據(jù) 渠道數(shù)據(jù) 供應商數(shù)據(jù) 商客數(shù)據(jù) .經(jīng)營數(shù)據(jù) 活動數(shù)據(jù) 交易類數(shù)據(jù) .營銷數(shù)據(jù) 業(yè)務感知數(shù)據(jù) 卡券數(shù)據(jù) 保險數(shù)據(jù) .管理數(shù)據(jù) 人力資源數(shù)據(jù) 運維數(shù)據(jù) 網(wǎng)絡數(shù)據(jù) .業(yè)態(tài)生產(chǎn)數(shù)據(jù) 互

34、聯(lián)網(wǎng)數(shù)據(jù) 用戶行為數(shù)據(jù) 活動數(shù)據(jù) .補充采集數(shù)據(jù) . .階段二開展大數(shù)據(jù)價值挖掘:將各模塊未導入的全量數(shù)據(jù)入湖,同時豐富生態(tài)邊際和互聯(lián)網(wǎng)數(shù)據(jù),拓展應用場景,實現(xiàn)大數(shù)據(jù)精準營銷和管理數(shù)據(jù)深度拓展:不斷豐富和拓展數(shù)據(jù)湖的數(shù)據(jù),包含數(shù)據(jù)的橫向范圍和縱向深度階段三缺失的原生態(tài)數(shù)據(jù) . .其他數(shù)據(jù) . .生態(tài)圈入湖建設思路與步驟生態(tài)圈入湖建設要求與規(guī)范生產(chǎn)源端規(guī)范生產(chǎn)源端規(guī)范入湖建設演進入湖建設演進生態(tài)圈入湖生態(tài)圈入湖規(guī)范規(guī)范價值價值靈活靈活生態(tài)數(shù)據(jù)運營生態(tài)數(shù)據(jù)運營p 原生數(shù)據(jù)規(guī)范保障 業(yè)務規(guī)范:業(yè)務指導、流程、制度等文檔 主數(shù)據(jù):范圍、內(nèi)容及管理規(guī)范 數(shù)據(jù)字典:數(shù)據(jù)模型、編碼約束、元數(shù)據(jù)等 數(shù)據(jù)流圖(

35、DFD):生產(chǎn)數(shù)據(jù)流、加工數(shù)據(jù)流等 指標口徑:術語定義、報表指標說明等p 生態(tài)能力入湖規(guī)劃 數(shù)據(jù)規(guī)模:生態(tài)全量、核心資料、經(jīng)營數(shù)據(jù)等大小 更新頻率:交易頻率、業(yè)務變更頻率等 存儲結構:生產(chǎn)數(shù)據(jù)存儲模式、存儲周期、分層結構等 接入要求:I/O帶寬、接入約束、生產(chǎn)備份情況等p 生態(tài)入湖步驟 依據(jù)數(shù)據(jù)價值推進生態(tài)數(shù)據(jù)入湖 生態(tài)圈需求驅(qū)動原生數(shù)據(jù)的入湖p 原生入湖演進 原則上遵循生態(tài)數(shù)據(jù)原生入湖 當原生入湖存在海量采集(性價比低),理解/支撐困難等 情況,允許按照如下原則進行非原生數(shù)據(jù)入湖:核心和經(jīng)營入湖:非原生采集,匯入整合層營銷和運營入湖:根據(jù)需要采集原生并逐步替換生態(tài)協(xié)同入湖:完全實現(xiàn)原生數(shù)據(jù)入

36、湖 生態(tài)業(yè)務變動大且原生結果滯后數(shù)據(jù),允許前瞻性獲取生產(chǎn)變化過程表,避免數(shù)據(jù)模型的大幅調(diào)整p 原生數(shù)據(jù)入湖方案 資料類: 交易類: 主數(shù)據(jù)/編碼類:實時全量同步p 運營規(guī)范要求(聯(lián)動同步) 業(yè)務調(diào)整通知:新業(yè)務定義,生產(chǎn)約束變更、業(yè)務流程變更等 數(shù)據(jù)運營同步:模型結構變更、歷史數(shù)據(jù)調(diào)整、口徑新 增/調(diào)整等 生產(chǎn)模型建設規(guī)范:新增/變更模型遵循大數(shù)據(jù) 湖整體規(guī)范要求初始化全量上傳后續(xù)變更采集全量合并整合歷史全量同步周期增量采集全量合并整合p 生態(tài)圈入湖要求立足中國電信企業(yè)級視角生產(chǎn)側與數(shù)據(jù)側建設協(xié)同生產(chǎn):原生接入保障數(shù)據(jù):共享服務保障p 運營原則前瞻性全面性科學性合理性生態(tài)圈數(shù)據(jù)整合處理原則及關

37、鍵點交費助手用戶綁卡用戶代金券用戶甜橙白條用戶手機號碼統(tǒng)一統(tǒng)一客戶客戶IDID手機手機號碼號碼交費助手交費助手用戶用戶IDID綁卡綁卡用戶用戶IDID代金券代金券用戶用戶IDID甜橙白條甜橙白條用戶用戶IDID與BSS一致定期?;钇诒L硪鎸毣甬a(chǎn)品申購表統(tǒng)一客戶統(tǒng)一客戶IDID理財類型理財類型理財產(chǎn)品理財產(chǎn)品支付類型支付類型理財金額理財金額與BSS一致 動態(tài)屬性分離:采用實體屬性分解的模型設計方式,滿足業(yè)務多變的發(fā)展需求IDIDProductIDProductIDLoadDTSLoadDTSREC_SRCREC_SRC1PDT0012014.3.14理財2PDT0022014.3.15交費助手

38、IDIDCustomerIDCustomerIDProductIDProductIDChannelIDChannelIDLoadDTSLoadDTSREC_SRCREC_SRC1ABC123456PDT001CNL0012014.3.14基金產(chǎn)品申購表2DFGSG768PDT002CNL0012014.3.15通訊繳費3C00011PDT001CNL002 2014.3.14 添益寶4C12484PDT002CNL0022014.5.14生活繳費IDIDCustomerIDCustomerIDLoadDTSLoadDTSREC_SRCREC_SRC1ABC1234562014.3.14 理財2

39、DFGSG7682014.3.15交費助手客戶實體產(chǎn)品實體客戶產(chǎn)品訂購關系IDIDChannelIDChannelID LoadDTSLoadDTS REC_SRCREC_SRC1CNL0012014.3.14o2o商戶2CNL0022014.3.15網(wǎng)關商戶渠道實體IDIDProductIDProductID結算方式結算方式LoadDTSLoadDTSREC_SRCREC_SRC1PDT003全額2014.3.14代金券配置2PDT003差額2014.3.15代金券配置IDIDProductIDProductID生效方式生效方式LoadDTSLoadDTSREC_SRCREC_SRC1PDT

40、003自動設置2014.3.14代金券配置2PDT003發(fā)放設置2014.3.15代金券配置產(chǎn)品屬性-生效方式產(chǎn)品屬性-結算方式 生態(tài)業(yè)務聚合:聚焦各類業(yè)務應用,規(guī)劃生態(tài)整合視圖 核心實體對齊:跨業(yè)務的實體數(shù)據(jù)一致性關聯(lián)生態(tài)圈數(shù)據(jù)整合關鍵點 支撐湖標準化的數(shù)據(jù)規(guī)范轉換; 基于共性化數(shù)據(jù)處理,支撐廣泛、穩(wěn)定的共享應用;大數(shù)據(jù)湖整合區(qū)建設原則 跨域數(shù)據(jù)的關聯(lián)性和橫向?qū)R;統(tǒng)一ID生態(tài)圈自然人實體歸集與對齊客戶資料歸集應具備基于資料信息的規(guī)則匹配識別和基于客戶海量的通信相關信息的挖掘識別方法:1)通過規(guī)則匹配識別技術,高效地完成準確性較高的資料信息自然人識別;2)基于大數(shù)據(jù)技術構建自然人識別模式,作

41、為規(guī)則識別的有效補充,提高自然人識別成功率,減少人工核查確認工作量。關鍵能力要求:p 規(guī)則識別和大數(shù)據(jù)技術識別配合完成資料聚合;深度應用大數(shù)據(jù)識別技術,通過照片留存、交際圈、位置軌跡、虛擬身份等信息,識別出從資料層面不能反映出的同一自然人。p 大數(shù)據(jù)技術識別應用到的技術:文本分詞、文本匹配、似度計算、多音字庫、象形字庫、網(wǎng)絡圖譜算法、指紋權重、關系傳遞等;聚合規(guī)則識別原生數(shù)據(jù)自然人沉淀物聯(lián)網(wǎng)互聯(lián)網(wǎng)金融智能連接智慧家庭自然人識別大數(shù)據(jù)識別照片留存 交際圈 位置軌跡虛擬身份繳費信息終端信息客戶接觸 移動A套餐 Iphone用戶 客戶A1 移動C套餐 預付費 用戶 客戶A1自然人:客戶A省分1省分2

42、證件號碼姓名地址聯(lián)系人 工作單位 規(guī)則庫綜合評價實體歸集過程原生數(shù)據(jù)基于實體完整性基于業(yè)務邏輯整合歸集自頂向下自底向上數(shù)據(jù)整合/加工規(guī)則用戶信息表用戶產(chǎn)品訂購客戶信息客戶實名認證客戶聯(lián)系人信用度郵寄信息用戶積分編碼標準化模型轉化/編碼統(tǒng)一專區(qū)應用保證上層覆蓋性自然人基本信息自然人有效移網(wǎng)戶數(shù)信息自然人黑名單信息自然人用戶360信息差異數(shù)據(jù)下發(fā)自然人基本信息自然人擴展信息自然人用戶信息自然人用戶擴展屬性表自然人基本信息自然人擴展信息自然人用戶信息自然人用戶擴展信息差異數(shù)據(jù)實體歸集數(shù)據(jù)流程新興ICT生態(tài)圈數(shù)據(jù)接入與存儲 通過對五大生態(tài)圈數(shù)據(jù)采集入湖,統(tǒng)一規(guī)范轉換后,為各類專區(qū)應用提供數(shù)據(jù)支撐。p

43、生態(tài)圈入湖根據(jù)生態(tài)圈系統(tǒng)的建設情況,科學規(guī)劃多種采集方式入湖p 生態(tài)圈數(shù)據(jù)規(guī)范圍繞大數(shù)據(jù)湖功能分區(qū),探索各類數(shù)據(jù)的存儲要求和能力建設p 生態(tài)應用服務針對生態(tài)業(yè)務應用需求,確定大數(shù)據(jù)湖的應用支撐模式,構建專區(qū)建設規(guī)范智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT原生數(shù)據(jù)區(qū)大數(shù)據(jù)湖五大生態(tài)圈數(shù)據(jù) 批量采集 實時采集準實時采集整合數(shù)據(jù)區(qū)應用數(shù)據(jù)區(qū)互聯(lián)網(wǎng)金融專區(qū)物聯(lián)網(wǎng)專區(qū)生態(tài)創(chuàng)新專區(qū)互金業(yè)務訂購用戶行為軌跡智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT主數(shù)據(jù)區(qū)統(tǒng)一客戶信息生態(tài)業(yè)務產(chǎn)品統(tǒng)一帳戶信息標準編碼信息生態(tài)收入貢獻用戶關聯(lián)信息新業(yè)務采集 入湖模式探索對接應用需求 專區(qū)規(guī)范制定數(shù)據(jù)分區(qū)規(guī)劃 湖存儲功能定義生

44、態(tài)采集支撐 入湖采集能力驗證目錄背 景:大數(shù)據(jù)湖的發(fā)展背景與建設理念1生態(tài)圈:探索新興業(yè)務入湖建設模式3共 享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃4運 營:大數(shù)據(jù)湖一體化運營管理建設5體 系:大數(shù)據(jù)湖體系規(guī)劃與建設思路2大數(shù)據(jù)場景下數(shù)據(jù)服務的能力建設要求大數(shù)據(jù)場景:混搭架構平臺、多系統(tǒng)共存、不同數(shù)據(jù)體系、各種應用場景需求統(tǒng)一標準化透明化安全高效 外部應用的便捷接入 跨數(shù)據(jù)結構的邏輯化訪問 靈活安全的權限管控機制 統(tǒng)一標準化數(shù)據(jù)查詢 跨底層數(shù)據(jù)存儲平臺混搭架構平臺,如HDFS、MPP、SMP等多種數(shù)據(jù)存儲體系,如關系型DB、KV-DB、文件系統(tǒng)等通用的數(shù)據(jù)查詢語言,支持跨平臺訪問,如PL/SQL,HQL等

45、多應用系統(tǒng)的物理結構透明化邏輯封裝,如OLTP、OLAP等多種數(shù)據(jù)服務場景的權限管控,如查詢、分析等多種應用接入能力,如JDBC、Socket等大數(shù)據(jù)湖統(tǒng)一訪問共享建設規(guī)劃 統(tǒng)一目錄/透明訪問訪問共享數(shù)據(jù)服務中間件統(tǒng)一訪問共享:管、用、看p 管:基于湖中數(shù)據(jù)構建統(tǒng)一數(shù)據(jù)目錄,屏蔽湖中數(shù)據(jù)物理存儲地址,提供實現(xiàn)湖中可共享數(shù)據(jù)的管理p 用:數(shù)據(jù)服務中間件為應用提供多樣化數(shù)據(jù)接口訪問能力,如API、JDBC/ODBC、消息、訂閱等能力p 看:目錄視圖為開發(fā)者提供湖中可共享數(shù)據(jù)的統(tǒng)一目錄視圖,并管理湖中數(shù)據(jù)訪問授權數(shù)據(jù)計算與存儲資源計算引擎數(shù)據(jù)存儲文本數(shù)據(jù)ORACLEHIVEHBASE統(tǒng)一數(shù)據(jù)目錄數(shù)據(jù)

46、讀取數(shù)據(jù)能力數(shù)據(jù)采集數(shù)據(jù)加工數(shù)據(jù)挖掘數(shù)據(jù)應用數(shù)據(jù)可視化服務封裝數(shù)據(jù)訪問接口數(shù)據(jù)訪問接口API接口JDBC/ODBC消息數(shù)據(jù)緩存內(nèi)存計算數(shù)據(jù)訪問引擎函數(shù)計算統(tǒng)計分析規(guī)則配置接口鑒權數(shù)據(jù)授權目錄管控數(shù)據(jù)開放權限申請授權審批訪問共享是湖中數(shù)據(jù)和應用、能力之間的橋梁,任何功能/應用模塊使用湖中數(shù)據(jù)時,不需要關心數(shù)據(jù)的存儲方式、存儲介質(zhì)、存儲位置等信息,只要和訪問共享連接既可以實現(xiàn)湖中數(shù)據(jù)的訪問統(tǒng)一訪問共享典型應用場景數(shù)據(jù)挖掘共享數(shù)據(jù)訪問數(shù)據(jù)挖掘數(shù)據(jù)挖掘結果數(shù)據(jù)探索數(shù)據(jù)訪問生產(chǎn)系統(tǒng)自有數(shù)據(jù)接口遵循入湖規(guī)范訪問共享統(tǒng)一數(shù)據(jù)目錄專區(qū)應用共享數(shù)據(jù)訪問專區(qū)數(shù)據(jù)訪問數(shù)據(jù)加工數(shù)據(jù)訪問數(shù)據(jù)計算與存儲資源原生數(shù)據(jù)整合數(shù)

47、據(jù)專區(qū)數(shù)據(jù)生產(chǎn)數(shù)據(jù) 能力開放(API)共享數(shù)據(jù)訪問服務封裝服務訂閱服務網(wǎng)關數(shù)據(jù)訪問數(shù)據(jù)可視化1234數(shù)據(jù)服務中間件目錄管控新建系統(tǒng)專區(qū)應用開發(fā)者通過統(tǒng)一訪問引擎訪問湖中共享數(shù)據(jù),專區(qū)應用直接訪問自有專區(qū)數(shù)據(jù),實現(xiàn)湖中數(shù)據(jù)統(tǒng)一共享管控和應用 訪問靈活訪問自有專區(qū)數(shù)據(jù)統(tǒng)一數(shù)據(jù)目錄 共享列表/質(zhì)量保障/安全可控訪問共享數(shù)據(jù)存儲元數(shù)據(jù)管理數(shù)據(jù)描述及統(tǒng)計信息數(shù)據(jù)稽核統(tǒng)一數(shù)據(jù)目錄人工審核數(shù)據(jù)質(zhì)量審核數(shù)據(jù)安全審核開放范圍審核開放流程定義運營者審核通過表、視圖結合元數(shù)據(jù)及數(shù)據(jù)統(tǒng)計信息數(shù)據(jù)服務中間件目錄管控湖中數(shù)據(jù)只有經(jīng)過質(zhì)量和安全評估,符合應用開發(fā)的條件后,在明確開放審批流程的前提下,進入統(tǒng)一數(shù)據(jù)目錄對外共享

48、基于湖中具備共享條件的數(shù)據(jù)構建統(tǒng)一數(shù)據(jù)目錄,通過訪問引擎為應用開發(fā)者、數(shù)據(jù)運營者提供湖中數(shù)據(jù)訪問能力,是數(shù)據(jù)應用、運營和價值實現(xiàn)的基礎。大數(shù)據(jù)服務關鍵能力:統(tǒng)一數(shù)據(jù)接入/轉換/服務對接能力統(tǒng)一數(shù)據(jù)服務代理Data Broker大數(shù)據(jù)系統(tǒng)Hive、Hbase、Impala、數(shù)據(jù)服務Query、API等能力開放工具查詢工具、挖掘工具、OLAP工具等數(shù)據(jù)應用報表、應用等SMP數(shù)據(jù)庫Oracle、Mysql、DB2、解釋查詢統(tǒng)一對外接入(JDBC、Socket、Restful)統(tǒng)一數(shù)據(jù)連接(Agent connector)OLAP引擎Apache Kylin、Cognos、MPP數(shù)據(jù)庫GreenPlu

49、m、Vertica、傳統(tǒng)文件系統(tǒng)Excel、XML、Json、AQLPL/SQLHQL數(shù)據(jù)聯(lián)邦PostgresSQL性能安全性能優(yōu)化數(shù)據(jù)安全緩 存優(yōu) 先內(nèi) 存轉 換訪 問鑒 權脫 敏加 密元數(shù)據(jù)數(shù)據(jù)集關聯(lián)統(tǒng)一維表數(shù)據(jù)預覽格式轉換源端連接統(tǒng)一數(shù)據(jù)服務中間件 跨域聯(lián)邦/標準查詢/統(tǒng)一訪問37p 跨底層數(shù)據(jù)存儲平臺多種數(shù)據(jù)存儲體系,如關系型DB、KV-DB、文件系統(tǒng)等p 統(tǒng)一標準化數(shù)據(jù)查詢通用的數(shù)據(jù)查詢語言,支持跨平臺訪問,如PL/SQL,HQL等p 靈活安全的權限管控機制多種數(shù)據(jù)服務場景的權限管控,如查詢、分析等p 跨數(shù)據(jù)結構的邏輯化訪問多應用系統(tǒng)的物理結構透明化邏輯封裝,如OLTP、OLAP等p

50、 外部應用的便捷接入多種應用接入能力,如JDBC、Socket等各類跨架構數(shù)據(jù)源端連接與訪問38靈活自主的數(shù)據(jù)服務集定義39DataBroker查詢語法40常用函數(shù):AQL語法(類SQL):示例1:在用戶增長數(shù)據(jù)集中,查詢2018年10月比9月的入網(wǎng)用戶增長比例,按地區(qū)分組,按排序字段排序SELET ROUND(month_ten-month_nine)/ month_nine) as “增長比例”, user_area as “地區(qū)” FROM user_in_month_detail GROUP BY user_area ORDER BY order_codeDataBroker查詢示例示

51、例2:按照省份,將流量按照100M為步長分檔統(tǒng)計,并忽略小于10M的用戶數(shù)SELECT area_no,segm_step(data_flow,100,10) as 流量分檔,count(user_id) as 用戶數(shù) FROM user_used_flow GROUP BY area_no,SEGM_STEP(data_flow,100,10) as 流量分檔”示例3:按照省,賬期,分組統(tǒng)計指標1,指標2值,同時統(tǒng)計行小計,行總計,列小計,列合計,并將省,賬期轉為交叉列,省份為河北與甘肅。SELECT group_type AS 分組 FROM BIG_DATA_SET t ACROSS(s

52、um(指標1) as “指標1”,sum(指標3) for (PROVINCE,ACCT_MONTH) WHERE t.PROVINCE in(河北,甘肅) ORDER BY group_type ASCROLLALL目錄背 景:大數(shù)據(jù)湖的發(fā)展背景與建設理念1生態(tài)圈:探索新興業(yè)務入湖建設模式3共 享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃4運 營:大數(shù)據(jù)湖一體化運營管理建設5體 系:大數(shù)據(jù)湖體系規(guī)劃與建設思路2統(tǒng)一運營管理全面性規(guī)范化可視化大數(shù)據(jù)湖運營管理能夠為全網(wǎng)提供統(tǒng)一的運營和協(xié)同管控,包括運維支撐、運營監(jiān)控和數(shù)據(jù)生態(tài)評估等多個方面,實現(xiàn)各類數(shù)據(jù)風險和隱患的快速排查,提升運營效率,為智慧化的運營戰(zhàn)略奠定

53、基礎。大數(shù)據(jù)湖運營管理體系規(guī)劃已建設建設中未建設運營監(jiān)控采集監(jiān)控數(shù)據(jù)分區(qū)監(jiān)控共享服務監(jiān)控接入用戶監(jiān)控任務狀態(tài)監(jiān)控外圍系統(tǒng)交互監(jiān)控運維支撐應用稽核問題跟蹤質(zhì)量探索工具問題派單通知管理日志管理數(shù)據(jù)生態(tài)評估數(shù)據(jù)分布價值評估安全評估數(shù)據(jù)熱點冗余評估質(zhì)量評估大數(shù)據(jù)湖統(tǒng)一運營監(jiān)控 全生命周期監(jiān)控/運營規(guī)范顯性化數(shù)據(jù)監(jiān)控視圖運營監(jiān)控視圖任務狀態(tài)監(jiān)控:對大數(shù)據(jù)湖中各類任務運行的異常狀態(tài)進行實時的監(jiān)控外圍系統(tǒng)交互監(jiān)控:提供外圍應用系統(tǒng)與大數(shù)據(jù)湖進行各類交互操作的監(jiān)控接入用戶監(jiān)控:對已接入大數(shù)據(jù)湖的用戶類型、操作權限,并發(fā)用戶量等信息進行監(jiān)控采集監(jiān)控:對從各類數(shù)據(jù)源采集入湖數(shù)據(jù)是否符合接入規(guī)范進行監(jiān)控數(shù)據(jù)分區(qū)監(jiān)控:對大數(shù)據(jù)湖中的原生數(shù)據(jù)、整合數(shù)據(jù)等各類數(shù)據(jù)是否按分區(qū)規(guī)范存儲進行監(jiān)控共享服務監(jiān)控:對湖中可共享的各類數(shù)據(jù)是否符合共享標準和規(guī)范進行監(jiān)控運營監(jiān)控主要為大數(shù)據(jù)湖提供數(shù)據(jù)生產(chǎn)監(jiān)控和數(shù)據(jù)運營監(jiān)控兩方面的能力。其中數(shù)據(jù)生產(chǎn)監(jiān)控主要提供從數(shù)據(jù)采集、數(shù)據(jù)分區(qū)存儲到共享的監(jiān)控;數(shù)據(jù)運營監(jiān)控實現(xiàn)對接入系統(tǒng)的用戶信息、任務執(zhí)行的狀態(tài),以及與外圍應用系統(tǒng)的交互操作進行監(jiān)控,并進行全景展示。數(shù)據(jù)生命周期程序任務存儲分區(qū)用戶操作通過構建數(shù)據(jù)質(zhì)量管控系統(tǒng),打通數(shù)據(jù)湖與數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論