大數(shù)據(jù)湖體系規(guī)劃與建設方案_第1頁
大數(shù)據(jù)湖體系規(guī)劃與建設方案_第2頁
大數(shù)據(jù)湖體系規(guī)劃與建設方案_第3頁
大數(shù)據(jù)湖體系規(guī)劃與建設方案_第4頁
大數(shù)據(jù)湖體系規(guī)劃與建設方案_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、大數(shù)據(jù)湖體系規(guī)大數(shù)據(jù)湖體系規(guī)劃劃 與建設方案與建設方案目目錄錄背背景:大數(shù)據(jù)湖的發(fā)展背景與建設理景:大數(shù)據(jù)湖的發(fā)展背景與建設理念念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設思路生態(tài)圈:生態(tài)圈:探索新興業(yè)務入湖建設模式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃 運運營:營:大數(shù)據(jù)湖一體化運營管理建設12345數(shù)據(jù)架構(gòu)與承載體系的演變過數(shù)據(jù)架構(gòu)與承載體系的演變過程程完整性、一致性、交互穩(wěn)定性完整性、一致性、交互穩(wěn)定性, 并發(fā)性,異??苫謴筒l(fā)性,異??苫謴托孕詳?shù)據(jù)庫時代關系型數(shù)據(jù)庫解決了信息時代的數(shù)據(jù)資源存 儲和管理,實現(xiàn)了電子化的文件柜 采用數(shù)據(jù)模型表示數(shù)據(jù)結(jié)構(gòu),冗余小 面向事務管理,具有ACID特性 數(shù)據(jù)統(tǒng)

2、一管理和控制,易維護和擴充 程序與數(shù)據(jù)獨立,具有良好用戶接口1數(shù)據(jù)倉庫時代DW研究和解決了從數(shù)據(jù)庫中獲取信息的問 題,通過OLAP、數(shù)據(jù)挖掘等幫助企業(yè)決策 分析,構(gòu)建商業(yè)智能(BI) 面向主題的,關注用戶重點業(yè)務 集成的,跨越歷史、區(qū)域、系統(tǒng) 穩(wěn)定的,具有只讀性質(zhì),以查詢?yōu)橹?以時間序列存儲,非規(guī)范化管理2大數(shù)據(jù)平臺時代面對大數(shù)據(jù)5V特點,采用分布式、并行化 的存儲和計算架構(gòu),提升數(shù)據(jù)處理能力 對象:PB級,80%以上非結(jié)構(gòu)化數(shù)據(jù) 技術:分布式架構(gòu)、云計算、虛擬化等 CAP原理:CAP BASE 目標:線性擴展、彈性計算、實時響應、 動態(tài)調(diào)節(jié)31970 s1990 sBill Inmon提出D

3、W概念E.F.Codd發(fā)明DBMS2000 sGoogle發(fā)布三篇論文存儲經(jīng)濟性、高性能、高擴展存儲經(jīng)濟性、高性能、高擴展、 高并發(fā)、靈活模型適配高并發(fā)、靈活模型適配性性企業(yè)級跨域整合、業(yè)務擴展性企業(yè)級跨域整合、業(yè)務擴展性、 架構(gòu)設計合理性、流程規(guī)范架構(gòu)設計合理性、流程規(guī)范性性背景:數(shù)據(jù)快速入湖,分析更加智能,應用更加多樣,服務更加開背景:數(shù)據(jù)快速入湖,分析更加智能,應用更加多樣,服務更加開放放數(shù)據(jù)數(shù)據(jù) 應用應用數(shù)據(jù)數(shù)據(jù) 分析分析數(shù)據(jù)數(shù)據(jù) 平臺平臺數(shù)據(jù)數(shù)據(jù)以更加深度的數(shù)據(jù)開放,跨行業(yè)大數(shù)據(jù)關聯(lián)。服務服務以更多樣的應用能力,構(gòu)建針對性行業(yè)解決方案。數(shù)據(jù)數(shù)據(jù)入湖即治理,針對性對數(shù)據(jù)源系統(tǒng)輸入數(shù)據(jù)制

4、定入湖標準治理治理數(shù)據(jù)驅(qū)動治理規(guī)范,以數(shù)據(jù)為核心實時制定治理規(guī)范。數(shù)據(jù)平臺存儲方式向數(shù)據(jù)湖模式轉(zhuǎn)變,多數(shù)據(jù)匯聚。支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多數(shù)據(jù)入湖。從深度學習到機器學習,從機器學習到人工智能。基于數(shù)據(jù)湖的大量的原始數(shù)據(jù),深度訓練,快速分析智能應用,基于AI與機器學習分析,個性化服務提供。應用快速構(gòu)建,基于數(shù)據(jù)湖進行細粒度的收集、探索和分析數(shù)據(jù)湖數(shù)據(jù)治理數(shù)據(jù)分析數(shù)據(jù)應用數(shù)據(jù)服務數(shù)據(jù)驅(qū)動規(guī)范,入湖標準制定人工智能分析,直引湖中數(shù)據(jù) 更多企業(yè)數(shù)據(jù)將進入數(shù)據(jù)湖,來自傳統(tǒng)系統(tǒng)的數(shù)據(jù)和傳感器等新型數(shù)據(jù)資源不斷融合,數(shù)據(jù)孤島將繼續(xù)被打破。 隨著大數(shù)據(jù)分析能力的不斷提高,人工智能的重要性被逐步提升。

5、當今最先進的機器學習和人工智能系統(tǒng)正在超越傳統(tǒng)的基于 規(guī)則的算法,創(chuàng)建出能夠理解、學習、預測、適應,甚至可以自主操作的系統(tǒng)。大數(shù)據(jù)發(fā)展趨勢分析應用更加智能,構(gòu)建更加快速深度數(shù)據(jù)開放,針對方案制定數(shù)據(jù)湖產(chǎn)生背景及概念提數(shù)據(jù)湖產(chǎn)生背景及概念提出出企業(yè)現(xiàn)在正處于大數(shù)據(jù)的企業(yè)現(xiàn)在正處于大數(shù)據(jù)的“焦慮期焦慮期”存儲成本問題:海量數(shù)據(jù)需要在多環(huán)境、多級下重復存儲,存儲開銷大數(shù)據(jù)形態(tài)問題:應用大多聚焦在經(jīng)過加工后的再生數(shù)據(jù),原始數(shù)據(jù)無法得到充分利用業(yè)務響應問題:必須事先進行充分規(guī)劃和較長周期加工,欠缺運營所需的靈活性和時效性數(shù)據(jù)集市數(shù)據(jù)湖問題 ? 挑戰(zhàn) ? 變革 !數(shù)據(jù)湖一詞是2011年由Pentaho首席

6、技術官詹姆斯 迪克森最初提出的,參照“數(shù)據(jù)集市”得來。較小的數(shù)據(jù)存儲庫如同瓶裝水,經(jīng)過過濾包裝 結(jié)構(gòu)化后以供使用數(shù)據(jù)來源于不同地方如同湖泊,存儲更自然狀態(tài)下 的大量的水 預先設定問題 使用方式單一 集中存儲+無限能力 用戶各取所需把不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致 的存儲方式,在使用時方便連接,真正解決數(shù)據(jù) 集成問題。全部采集(Collect Everything)隨處研究(Dive In Anywhere)靈活訪問(Flexible Access)數(shù)據(jù)湖的定義與特數(shù)據(jù)湖的定義與特性性存儲一切,分析一切,創(chuàng)建所需數(shù)據(jù)湖(Data Lake) 核心思想把你以前在磁帶上擁有的東西倒入到數(shù)據(jù)

7、湖,然后開始探索該數(shù)據(jù)。重要的 只把需要的數(shù)據(jù)倒入到Hadoop;如果你想結(jié)合來自數(shù)據(jù)湖的信息和客戶關系 管理系統(tǒng)(CRM)里面的信息,我們就進行連接,只有需要時才執(zhí)行這番數(shù) 據(jù)結(jié)合。數(shù)據(jù)湖是一種在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法,它有助于以各種 模式和結(jié)構(gòu)形式配置數(shù)據(jù),通常是對象塊或文件。湖中的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù) 從關系數(shù)據(jù)庫(行和列),半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像、音頻、視頻)從 而形成一個集中式數(shù)據(jù)存儲容納所有形式的數(shù)據(jù)。詹姆斯迪克森維基百科從對比中理解數(shù)據(jù)湖概從對比中理解數(shù)據(jù)湖概念念 優(yōu)勢優(yōu)勢篇篇對比項對

8、比項數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)湖支持數(shù)據(jù)類支持數(shù)據(jù)類型型有限的數(shù)據(jù)類型支持,以結(jié)構(gòu)化為結(jié)構(gòu)化為主主支持結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集方數(shù)據(jù)采集方式式過程開始于業(yè)務流程識別業(yè)務流程識別,通常由數(shù)據(jù)管理者和業(yè)務負責人基 于數(shù)據(jù)和業(yè)務的某種假數(shù)據(jù)和業(yè)務的某種假設設在數(shù)據(jù)湖世界里,沒有關于已經(jīng)取得的數(shù)據(jù)假設。一旦數(shù) 據(jù)發(fā)生,即開始在細粒度級別收集數(shù)據(jù)細粒度級別收集數(shù)據(jù)。業(yè)務流程發(fā)現(xiàn)業(yè)務流程發(fā)現(xiàn)基基 于數(shù)據(jù)與輸入數(shù)于數(shù)據(jù)與輸入數(shù)據(jù)據(jù)數(shù)據(jù)處理能數(shù)據(jù)處理能力力寫入模式寫入模式,建立模型對數(shù)據(jù)進行某類格式和結(jié)構(gòu)的處理,為了 減少數(shù)據(jù)的復雜性,比較難于實現(xiàn)上卷(Roll up)和鉆?。?/p>

9、Drill down)分析,該設計可能需要妥協(xié)一定粒度的數(shù)據(jù)讀取模式讀取模式,接受原始形式的數(shù)據(jù),在數(shù)據(jù)細粒度級別收集 探索和分析非常簡單架構(gòu)重建能架構(gòu)重建能力力數(shù)據(jù)庫架構(gòu)演變需要謹慎,過程耗時,成本較高,影響較大, 需要對原有數(shù)據(jù)進行重構(gòu)不存在結(jié)構(gòu)問題,支持復雜數(shù)據(jù)類型,便于重置數(shù)據(jù)模型 查詢和應用,并具有簡單的重建關系的能力動態(tài)動態(tài)性性敏捷性差,采用靜態(tài)固定配置靜態(tài)固定配置,基于業(yè)務流程驅(qū)動而設計系統(tǒng)高度敏捷,動態(tài)靈活配置敏捷,動態(tài)靈活配置,基于數(shù)據(jù)的業(yè)務流程定義擴展擴展性性提供預定義的業(yè)務需求點燃創(chuàng)新和新的商業(yè)機會、從對比中理解數(shù)據(jù)湖概從對比中理解數(shù)據(jù)湖概念念 劣勢劣勢篇篇對比對比項項數(shù)

10、據(jù)倉數(shù)據(jù)倉庫庫數(shù)據(jù)數(shù)據(jù)湖湖數(shù)據(jù)規(guī)劃體系數(shù)據(jù)規(guī)劃體系具有周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉(zhuǎn)換的數(shù)據(jù)計劃周密的數(shù)據(jù)發(fā)現(xiàn)、采集、探索和轉(zhuǎn)換的數(shù)據(jù)計劃,易于突顯數(shù)據(jù)價值不太重視事先的數(shù)據(jù)規(guī)劃,允許存儲任何數(shù)據(jù),難以抓取數(shù)據(jù)價難以抓取數(shù)據(jù)價值值數(shù)據(jù)利用效率數(shù)據(jù)利用效率數(shù)據(jù)利用率高數(shù)據(jù)利用率高,按數(shù)據(jù)優(yōu)先級和數(shù)據(jù)可用性的大小進行組織,可以快速快速定定 位所需數(shù)位所需數(shù)據(jù)據(jù)數(shù)據(jù)利用率低,缺少數(shù)據(jù)優(yōu)先級排序缺少數(shù)據(jù)優(yōu)先級排序,需要花費大量時間查找和分 析前的準備數(shù)據(jù)需求響應能力需求響應能力具有較高的需求響應能力較高的需求響應能力,可以保證平穩(wěn)高效的數(shù)據(jù)訪問數(shù)據(jù)響應延遲較高響應延遲較高,整個分析過程容易中斷復雜性和

11、難度復雜性和難度較低,建設規(guī)模與成本可控很高,建設難度與規(guī)模呈線性增長趨勢,隱性成本較高邏輯可解釋性邏輯可解釋性數(shù)據(jù)組織邏輯性強,數(shù)據(jù)關系可解釋性較高欠缺語義一致性和嚴格的元數(shù)據(jù),數(shù)據(jù)關系較為松散,難以解釋安全性安全性多年發(fā)展歷程,保護數(shù)據(jù)的能力比較成熟比較新的技術,需要持續(xù)完善適用對象適用對象企業(yè)的業(yè)務行家和專業(yè)人員,技術門檻技術門檻低低面向熟練用戶、科學領域的數(shù)據(jù)科學家,技術門檻技術門檻高高潛在風險潛在風險數(shù)據(jù)數(shù)據(jù)湖湖數(shù)據(jù)沼數(shù)據(jù)沼澤澤數(shù)據(jù)湖是大數(shù)據(jù)概念的延數(shù)據(jù)湖是大數(shù)據(jù)概念的延伸伸 多樣化的數(shù)據(jù)存儲 高效的數(shù)據(jù)處理 存儲全部數(shù)據(jù) 處理任何數(shù)據(jù) 訪問任何數(shù)據(jù)數(shù) 據(jù) 能 力 要 求 支持所有用

12、戶 更容易適應變化 更快的洞悉能力IT能 力 要 求數(shù)據(jù)湖的能力視圖數(shù)據(jù)湖的能力視圖數(shù)據(jù)湖并非是個全新概數(shù)據(jù)湖并非是個全新概念念1. “數(shù)據(jù)湖”是關于企業(yè)應用大數(shù)據(jù)的概念,是面向企業(yè)的最 佳的大數(shù)據(jù)的解決方案2. “數(shù)據(jù)湖”不僅是數(shù)據(jù)存儲和處理的單元,也是釋放數(shù)據(jù)價 值的過程3. 企業(yè)大數(shù)據(jù)應用成功的關鍵并不是存儲所有的數(shù)據(jù),而是 要創(chuàng)建一個更有意義的“數(shù)據(jù)湖”,幫助企業(yè)加速提取高價 值數(shù)據(jù)的速度-公眾號行業(yè)調(diào)研報告4. 數(shù)據(jù)湖是大數(shù)據(jù)發(fā)展方向上的高級階段大數(shù)據(jù)發(fā)展方向上的高級階段,是一種建設一種建設理理 念,念,而不是一種特定的實施方法5. “數(shù)據(jù)湖”是個架構(gòu)概念,是數(shù)據(jù)倉庫的一種演進,是一

13、種 大數(shù)據(jù)概念下的延大數(shù)據(jù)概念下的延伸伸數(shù)據(jù)湖概念上的甄數(shù)據(jù)湖概念上的甄別別1、用于安置企業(yè)所有數(shù)據(jù)的一個數(shù)據(jù)倉庫或數(shù)據(jù) 集市2、替代運營數(shù)據(jù)存儲(ODS)3、高性能的生產(chǎn)環(huán)境4、生產(chǎn)型報表的應用程序5、一個專門建立的系統(tǒng)來解決一個特定的問題(盡管專門建立的數(shù)據(jù)集市可以從數(shù)據(jù)湖中提供)1、用戶可以訪問大量原始數(shù)據(jù)的環(huán)境2、一個開發(fā)和驗證分析模型的環(huán)境,然后將其轉(zhuǎn) 化為生產(chǎn)3、用于探索數(shù)據(jù)以獲得洞察力的分析沙箱4、企業(yè)級目錄,可幫助用戶查找數(shù)據(jù)并將業(yè)務術 語與技術元數(shù)據(jù)鏈接起來5、一個支持重用數(shù)據(jù)轉(zhuǎn)換和查詢的環(huán)境數(shù)據(jù)湖是數(shù)據(jù)湖是數(shù)據(jù)湖不是數(shù)據(jù)湖不是數(shù)據(jù)湖體系的架構(gòu)規(guī)數(shù)據(jù)湖體系的架構(gòu)規(guī)劃劃H a

14、d o o pH a d o o p 不 一 定 是 數(shù) 據(jù) 湖 的 組 成 部 分 , 只 是 它 是 目 前 最 理 想 的 選 擇不 一 定 是 數(shù) 據(jù) 湖 的 組 成 部 分 , 只 是 它 是 目 前 最 理 想 的 選 擇 !數(shù)據(jù)湖的邏輯架構(gòu)數(shù)據(jù)湖的邏輯架構(gòu)數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)湖的數(shù)據(jù)架構(gòu) 持久層(Persitent Layer):存放所有從內(nèi)部和外部獲取的 結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 分析沙箱(Analytics Sandbox):數(shù)據(jù)科學家和分析師被 授予持久層的訪問權限并使用進行數(shù)據(jù)研究和實驗 探索數(shù)據(jù)源(Curated):數(shù)據(jù)分析師會將有商業(yè)價值的數(shù) 據(jù)進行處理并創(chuàng)建新

15、的數(shù)據(jù)源以提供給業(yè)務分析師 可操作層(Operational layer):業(yè)務分析師繼續(xù)精煉已 處理過的數(shù)據(jù),和數(shù)據(jù)管理團隊一起將這些數(shù)據(jù)轉(zhuǎn)換為更 為容易操作和使用的數(shù)據(jù),存放之以便得到更廣泛的使用數(shù)據(jù)湖建設的四個階數(shù)據(jù)湖建設的四個階段段 整合數(shù)據(jù)湖基礎設施 可擴展的數(shù)據(jù)處理和攝入 數(shù)據(jù)目錄管理趨于完善 EDW與Data Lake協(xié)作 對外生產(chǎn)價值輸送能力 數(shù)據(jù)服務和運營管理能力 端到端的業(yè)務支撐能力 穩(wěn)定的成熟度服務架構(gòu) 靈活完善的企業(yè)運營模式 分析能力增強 優(yōu)化探索環(huán)境 豐富價值發(fā)現(xiàn)模型價值挖掘階價值挖掘階段段基礎架構(gòu)階基礎架構(gòu)階段段成熟運營階成熟運營階段段協(xié)作交互階協(xié)作交互階段段010

16、20304大 多 數(shù) 企 業(yè) 處 于 前 三 個 階 段 的 建 設 和 完 善 過 程 中建設難點與風建設難點與風險險數(shù)據(jù)湖關鍵數(shù)據(jù)湖關鍵點點數(shù)據(jù)湖體系的建設要點與風險分數(shù)據(jù)湖體系的建設要點與風險分析析靈活自動化的采集與存儲組織和編目數(shù)據(jù)管理統(tǒng)一的透明訪問方式數(shù)據(jù)質(zhì)量和可靠性無感知的分布式架構(gòu)(存儲、計算、網(wǎng)絡)企業(yè)全局數(shù)據(jù)的掌握與預測統(tǒng)一元數(shù)據(jù)規(guī)范和管控能力業(yè)務關聯(lián)場景的數(shù)據(jù)理解系統(tǒng)化的質(zhì)量管控體系分布技術的規(guī)劃和擴展能力參 考 : 來 自 實 踐 中 數(shù) 據(jù) 湖 建 設 內(nèi)參 考 : 來 自 實 踐 中 數(shù) 據(jù) 湖 建 設 內(nèi) 容容業(yè)界主流公司的數(shù)據(jù)湖規(guī)業(yè)界主流公司的數(shù)據(jù)湖規(guī)劃劃 Hor

17、tonworksHortonworks 公司基基于于 Hadoop 生態(tài)生態(tài)構(gòu)建的數(shù)據(jù)湖提出的現(xiàn) 代化數(shù)據(jù)架構(gòu)(Morden Data Architecture),從南向北包含 四個層面:數(shù)據(jù)采集層數(shù)據(jù)采集層(Data Acquisition Layer)數(shù)據(jù)采集層負責從數(shù)據(jù)源抽取和移動數(shù)據(jù),并將數(shù)據(jù)存放到數(shù)據(jù)湖中。采集的 數(shù)據(jù)源包括傳統(tǒng)的關系型或事務型系統(tǒng)、用戶獲取的數(shù)據(jù)、非結(jié)構(gòu)化或半結(jié)構(gòu) 化數(shù)據(jù)、外部數(shù)據(jù)或流數(shù)據(jù)等。數(shù)據(jù)監(jiān)管層數(shù)據(jù)監(jiān)管層(Data Curation Layer)數(shù)據(jù)監(jiān)管層負責數(shù)據(jù)湖中的數(shù)據(jù)組織、定型并為其他層提供消費,包含數(shù)據(jù)標 準化流程制定,數(shù)據(jù)創(chuàng)建、脫敏、清洗、轉(zhuǎn)換、維

18、護、管理和展現(xiàn)等工作。數(shù)據(jù)供應層數(shù)據(jù)供應層(Data Provisioning Layer)數(shù)據(jù)供應層采用更適用于業(yè)務報表和分析的傳統(tǒng)數(shù)據(jù)儲存方式,使用OLAP、 數(shù)據(jù)倉庫和數(shù)據(jù)集市降低數(shù)據(jù)消費的復雜度并提供快速的交互式查詢和分析。數(shù)據(jù)消費層數(shù)據(jù)消費層(Data Consumption Layer)數(shù)據(jù)消費層提供所有最終用戶的接口,對于不同用戶對數(shù)據(jù)的需求,大量和多 元化的工具和技術會被用于該層。業(yè)界主流公司對于數(shù)據(jù)湖的規(guī)業(yè)界主流公司對于數(shù)據(jù)湖的規(guī)劃劃 IBMIBM 公司提出的數(shù)據(jù)湖架構(gòu),包括六大關鍵部件六大關鍵部件: 一一 數(shù)據(jù)湖資源數(shù)據(jù)湖資源庫庫按照數(shù)據(jù)特點進行原始格式的分類存儲庫二二 企

19、業(yè)企業(yè)IT交交互互統(tǒng)一提供企業(yè)生產(chǎn)側(cè)系統(tǒng)與數(shù)據(jù)湖資源庫 的靈活交互,快速配置能力三三 原始數(shù)據(jù)交原始數(shù)據(jù)交互互為數(shù)據(jù)價值發(fā)現(xiàn)提供安全的資源分析訪問 接口與試驗環(huán)境四四 目錄接目錄接口口唯一權威的數(shù)據(jù)湖元數(shù)據(jù)發(fā)布和訪問模式五五 基于可視化的交基于可視化的交互互統(tǒng)一可視化的業(yè)務應用交互接口和沙箱環(huán) 境六六 信息集成與治信息集成與治理理集成的數(shù)據(jù)湖運營管理工具與環(huán)境目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設理念體體系:大數(shù)據(jù)湖體系規(guī)劃與建設思系:大數(shù)據(jù)湖體系規(guī)劃與建設思路路生態(tài)圈:生態(tài)圈:探索新興業(yè)務入湖建設模式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃 運運營:營:大數(shù)據(jù)湖一體化運營管理建設12345

20、生產(chǎn)型系統(tǒng)分析型系統(tǒng)內(nèi)部內(nèi)部 應用應用結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)庫/格式文件等)半結(jié)構(gòu)化數(shù)據(jù)(XML/TXT等)非結(jié)構(gòu)化數(shù)據(jù)(語音、視頻等)統(tǒng)一索引層計算側(cè)cache生態(tài)圈 系統(tǒng)數(shù)據(jù)存數(shù)據(jù)存儲儲P B 級 存 儲計算處計算處理理T B 級 計 算訪問共訪問共享享同 源 異 構(gòu) 訪 問交互分析OLAP挖掘工具應用構(gòu) 建工具存 儲 計 算 加 速BSSOSSMSS網(wǎng)絡/平臺生態(tài)圈采集接入規(guī)范源數(shù)據(jù)提供規(guī)范數(shù)據(jù)分類 規(guī)范數(shù)據(jù)模型 規(guī)范元字典 規(guī)范資源申請規(guī)范計算調(diào)度規(guī)范運營管運營管控控訪問接入規(guī)范數(shù)據(jù)共享標準生產(chǎn)模型規(guī)范數(shù)據(jù)沙箱統(tǒng)一數(shù)據(jù)服務代理(Data Broker)數(shù)據(jù)湖統(tǒng)一目數(shù)據(jù)湖統(tǒng)一目錄錄API統(tǒng) 一

21、 數(shù) 據(jù) 接 入邏 輯 化 視 圖訪問接口(JDBC、ODBC)跨 架 構(gòu) 數(shù) 據(jù) 聯(lián) 邦緩 存 加 速存儲規(guī)范數(shù)據(jù)安全規(guī)范角色權限規(guī)范運營管理規(guī)范協(xié)同計算引擎實時檢索和流處理引擎離線批處理引擎交互式查詢引擎資源池化 彈性伸縮計算資源調(diào)計算資源調(diào)度度自動調(diào)度 按需使用應用應用 專區(qū)專區(qū)省分 專區(qū)生態(tài)圈 專區(qū)源端系源端系統(tǒng)統(tǒng)平臺平臺 工具工具外部外部 系統(tǒng)系統(tǒng)互聯(lián)網(wǎng)合作伙伴數(shù)據(jù)接數(shù)據(jù)接入入大 吞 吐 管 道服務對服務對象象外部系統(tǒng)互聯(lián)網(wǎng)生產(chǎn)直采前置采集同步鏡像網(wǎng)絡爬蟲IOT接入生產(chǎn)系統(tǒng)駐留可視化定義 即配即用統(tǒng)一接入配統(tǒng)一接入配置置透明化部署 實時接入調(diào)度生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)(1+N) 操 作 /

22、臨 時 存 儲原生數(shù)據(jù)原生數(shù)據(jù)(1+N) 就 近分 域 存 儲主數(shù)據(jù)主數(shù)據(jù)(1) 全 網(wǎng) 統(tǒng) 一整合數(shù)據(jù)整合數(shù)據(jù)(1) 全 網(wǎng)分 層 支 撐應用數(shù)據(jù)應用數(shù)據(jù)(N) 分 區(qū) 建 設TXTOracleMySqlHDFSHbaseGreenplum大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖體系規(guī)劃大數(shù)據(jù)湖存儲能力規(guī)劃大數(shù)據(jù)湖存儲能力規(guī)劃統(tǒng)一標準統(tǒng)一標準/分區(qū)存分區(qū)存儲儲制定全集團統(tǒng)一數(shù)據(jù)標準,采取分域分類的數(shù)據(jù)入湖策略制定全集團統(tǒng)一數(shù)據(jù)標準,采取分域分類的數(shù)據(jù)入湖策略,構(gòu)建生產(chǎn)、原生、整合/應用、專區(qū)等分區(qū)數(shù)據(jù)存儲及計算能力,實 現(xiàn)數(shù)據(jù)原生入湖、按需使用的宗旨,為全國1+31省提供應用數(shù)據(jù)服務能力,注智生產(chǎn)激發(fā)生產(chǎn)力

23、。數(shù)數(shù) 據(jù)據(jù) 存存 儲儲數(shù)據(jù)接數(shù)據(jù)接入入數(shù)據(jù)訪數(shù)據(jù)訪問問運運 營營 管管 理理數(shù)數(shù)據(jù)據(jù) 計計 算算計算資源管理資 源 池 化 , 彈 性 技資 源 池 化 , 彈 性 技 術術自 動 調(diào) 度 , 按 需 使自 動 調(diào) 度 , 按 需 使 用用實時流式實時流式離線批量離線批量內(nèi)存計算及緩存內(nèi)存計算及緩存機器學習機器學習交互式查詢交互式查詢協(xié)同計算協(xié)同計算非結(jié)構(gòu)化計算非結(jié)構(gòu)化計算存儲資源管理結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)(日志/XML文件等)非結(jié)構(gòu)化數(shù)據(jù)(文件/圖片/音頻/視頻等)省份省份 專區(qū)專區(qū)生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)區(qū)區(qū)原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)整合數(shù)據(jù)整合數(shù)據(jù)區(qū)區(qū)主數(shù)據(jù)區(qū)主數(shù)據(jù)區(qū)省份B/O側(cè) 生產(chǎn)系統(tǒng)集團橫向系

24、統(tǒng)生態(tài)圈生產(chǎn)系 統(tǒng)網(wǎng)絡/平臺 生產(chǎn)系統(tǒng)(前 置預處理)編碼統(tǒng)一轉(zhuǎn)換實體對齊實體關聯(lián)視圖客 產(chǎn) 渠 營 資 服 自 然 戶 品 道 銷 源 務人內(nèi)蒙貴州河北遼寧寧夏生態(tài)圈生態(tài)圈 互聯(lián)網(wǎng)專區(qū)專區(qū)金融智能 連接智慧 家庭物聯(lián) 網(wǎng)新興 ICT人員組織資源產(chǎn)品客戶BSS原OSS原 MSS原生數(shù)據(jù) 生數(shù)據(jù) 生數(shù)據(jù)網(wǎng)絡/平臺數(shù)據(jù)集團橫 生態(tài)圈 向數(shù)據(jù)-ICT生態(tài)圈-金融存儲分區(qū)原則存儲分區(qū)原則:生產(chǎn)數(shù)據(jù)區(qū):生產(chǎn)數(shù)據(jù)區(qū):遵循電信集團數(shù)據(jù) 建模標準及主數(shù)據(jù)規(guī)范要求;規(guī)范 層面屬于大數(shù)據(jù)湖范疇,物理資源 層面可采用湖資源也可自建; 原生數(shù)據(jù)區(qū):原生數(shù)據(jù)區(qū):分域分類存儲生產(chǎn)數(shù)據(jù);將非標準數(shù)據(jù)做標準化轉(zhuǎn)化;整合數(shù)據(jù)區(qū)

25、:整合數(shù)據(jù)區(qū):采用大數(shù)據(jù)挖掘等 技術進行實體歸集補全;構(gòu)建實體 關聯(lián)視圖;主數(shù)據(jù)區(qū):主數(shù)據(jù)區(qū):存儲企業(yè)級全網(wǎng)主數(shù) 據(jù),大數(shù)據(jù)主數(shù)據(jù)唯一提供者;應用專區(qū):應用專區(qū):本著數(shù)據(jù)不出湖,充 分挖掘數(shù)據(jù)價值原則,為使用者提 供基于自有、原生、整合數(shù)據(jù)的處 理空間,面向應用開展數(shù)據(jù)處理工 作;大數(shù)據(jù)湖原生數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖原生數(shù)據(jù)區(qū)規(guī)劃原生入湖原生入湖/分類存儲分類存儲/按需使按需使用用以原生入湖分類存儲按需使用為宗旨以原生入湖分類存儲按需使用為宗旨,分域分類存儲按周期存儲原生數(shù)據(jù),為云公司、集團ODS、省份大數(shù)據(jù)平臺提供原生數(shù)據(jù) 共享服務,為湖內(nèi)整合數(shù)據(jù)區(qū)、應用數(shù)據(jù)區(qū)提供原生數(shù)據(jù)服務。生態(tài)圈 數(shù)據(jù)網(wǎng)絡/

26、平 臺數(shù)據(jù)集團數(shù)據(jù)OSS數(shù)據(jù)EDA數(shù)據(jù)共享服務數(shù)共享服務數(shù)據(jù)據(jù)生產(chǎn)系生產(chǎn)系統(tǒng)統(tǒng)BSS系統(tǒng)OSS系統(tǒng)MSS系統(tǒng)EDA系統(tǒng)集團橫 向系統(tǒng)生態(tài)圈系 統(tǒng)網(wǎng)絡/平臺 系統(tǒng)原生 入湖預處 理入 湖數(shù)據(jù)共享原生數(shù) 據(jù)專區(qū) 共享原生數(shù) 據(jù)整合 共享數(shù)據(jù)整合數(shù)據(jù)整合區(qū)區(qū)數(shù)據(jù)專數(shù)據(jù)專區(qū)區(qū)實體關聯(lián) 視圖共享互聯(lián)網(wǎng)金融互聯(lián)網(wǎng)金融智能連智能連接接智慧家智慧家庭庭物聯(lián)物聯(lián)網(wǎng)網(wǎng)新興新興ICT應應用用翼支付甜橙欺詐盾IWIFINFC產(chǎn)品云堤海洋 衛(wèi)星統(tǒng)一賬號 4G-QoS流量控寬帶天翼 網(wǎng)關智能 視頻 聚車管 組網(wǎng) 通話 精彩 專家樂駕愛音樂枝繁葉茂枝繁葉茂類類天翼視訊天翼閱讀愛游戲愛動漫天翼空間易信天翼云盤 189郵箱翼機

27、通+ 旺鋪助手 號簿助手企業(yè)云翼校通天翼對講 外勤助手 手機看店新視通 4G安全辦公 加密通道21CN語音云家庭云專屬云影像云地產(chǎn)大數(shù) 據(jù)旅游大數(shù)據(jù)DPI固網(wǎng)DPI 日志留存OIDD移動感知 DPIMR/C4G分組域話 DR單PM/CM 智能網(wǎng)管橫向 行業(yè)短信集約積分渠道電渠悅商機微信易信號百4G數(shù)據(jù)終端 MEOD量政企MS化KPICRM計費客戶服務BSS數(shù)據(jù)PPMVSOPMSS 采購輔助數(shù)據(jù)ERP原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)財務輔助工程輔助人力久其綜合裝資源維EDA直采省 + 集 團電渠 服務量省份專區(qū)生態(tài)圈專區(qū)實體關聯(lián)視圖編碼標準化實體對齊移動/固網(wǎng) DPIOIDDMR/CDRCM/CP計費詳單H

28、ANA數(shù)據(jù)ODMS翼支付集約積分主主 數(shù)數(shù) 據(jù)據(jù) 區(qū)區(qū)大數(shù)據(jù)湖整合數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖整合數(shù)據(jù)區(qū)規(guī)劃構(gòu)建企業(yè)級核心實體關聯(lián)視構(gòu)建企業(yè)級核心實體關聯(lián)視圖圖 保存原子性:保存原子性:整合數(shù)據(jù)區(qū)數(shù) 據(jù)不做聚合操作,保持數(shù)據(jù) 原子性,不影響專區(qū)應用指 標加工處理; 實體補齊性:實體補齊性:對核心實體根 據(jù)不同原生數(shù)據(jù)進行屬性補 齊; 實體關聯(lián)性:實體關聯(lián)性:面向?qū)嶓w全業(yè) 務流程數(shù)據(jù),整合各域數(shù)據(jù) 實現(xiàn)實體跨域關聯(lián)視圖; 共享一致性:共享一致性:按照湖應用的 使用需求進行共性提煉,實 現(xiàn)統(tǒng)一的公共寬表建設;整合數(shù)據(jù)區(qū)完成數(shù)據(jù)清洗、編碼轉(zhuǎn)換、實體對齊及構(gòu)建企業(yè)級核心實體關聯(lián)視圖整合數(shù)據(jù)區(qū)完成數(shù)據(jù)清洗、編碼轉(zhuǎn)

29、換、實體對齊及構(gòu)建企業(yè)級核心實體關聯(lián)視圖,為應用專區(qū)提供整合數(shù)據(jù)服務。整合數(shù)據(jù) 區(qū)保持數(shù)據(jù)原子性粒度,不對數(shù)據(jù)做聚合處理,不影響業(yè)務專區(qū)業(yè)務指標加工處理。實體關聯(lián)視實體關聯(lián)視圖圖參與營 銷活動資源配 給用戶投 訴用戶使 用存量經(jīng) 營產(chǎn)品訂 購上門服 務修障維 護用戶出 賬產(chǎn)品產(chǎn)品 實體實體 跨域跨域 關聯(lián)關聯(lián) 視圖視圖 構(gòu)建構(gòu)建BSS數(shù)據(jù)數(shù)據(jù) 客戶信息 訂購信息OSS數(shù)據(jù)數(shù)據(jù)MSS數(shù)據(jù)數(shù)據(jù)網(wǎng)絡網(wǎng)絡/ 平臺平臺 裝維信息 開通信息 傭金結(jié)算 成本信息 用戶投訴率 行為數(shù)據(jù) 質(zhì)量數(shù)據(jù)消費信息服務信息資源數(shù)據(jù)報障數(shù)據(jù)財務收入補貼數(shù)據(jù)客戶產(chǎn)品渠道營銷資源服務合作伙伴核心核心 實體實體自然人CP/SP訂

30、購位置信息自然人員工組織地域政企客戶合作伙伴數(shù)據(jù)清洗規(guī)則管理實體沉淀聚合管理實體對實體對齊齊沖突管理外部數(shù)據(jù)管理大數(shù)據(jù)湖應用數(shù)據(jù)專區(qū)規(guī)劃大數(shù)據(jù)湖應用數(shù)據(jù)專區(qū)規(guī)劃面向應用的自建自維數(shù)據(jù)專面向應用的自建自維數(shù)據(jù)專區(qū)區(qū) 獨立性:獨立性:保證資源獨立性、 數(shù)據(jù)獨立性、應用獨立性; 可用性:可用性:保證存儲、計算、 數(shù)據(jù)資源高可用性及穩(wěn)定 性;確保專區(qū)資源可在線、 平滑擴展; 易用性:易用性:提供豐富的可視 化開發(fā)及專區(qū)運營工具; 可管理性:可管理性:大數(shù)據(jù)湖對專 區(qū)具備監(jiān)控、審計能力; 數(shù)據(jù)服務性:數(shù)據(jù)服務性:專區(qū)數(shù)據(jù)可 以數(shù)據(jù)形式服務,也可開 發(fā)應用直接鏈接調(diào)用;大數(shù)據(jù)湖為業(yè)務應用場景提供具有數(shù)據(jù)存

31、儲、數(shù)據(jù)計算、數(shù)據(jù)服務及數(shù)據(jù)應用訪問能力的應用專區(qū)大數(shù)據(jù)湖為業(yè)務應用場景提供具有數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)服務及數(shù)據(jù)應用訪問能力的應用專區(qū),用戶可自行獲取數(shù)據(jù), 面向特定應用場景完成數(shù)據(jù)加工處理;大數(shù)據(jù)湖提供專區(qū)申請及監(jiān)控管理,以保證專區(qū)健康、有價運營。數(shù)據(jù)接入源端生產(chǎn)系統(tǒng)/數(shù)據(jù)倉庫省份專區(qū) 應用生態(tài)圈專 區(qū)應用其它專 區(qū)應用應用數(shù)據(jù)專應用數(shù)據(jù)專區(qū)區(qū)整 合 數(shù) 據(jù) 區(qū)主 數(shù) 據(jù) 區(qū)自有數(shù)據(jù)原生數(shù)據(jù)整合區(qū)數(shù)據(jù)省份專區(qū)-內(nèi)蒙 應用數(shù)據(jù)專區(qū)申請專區(qū)審批專區(qū)管理專區(qū)劃分專區(qū)變更專區(qū)回收運營監(jiān)控資源利用率數(shù)據(jù)處理規(guī)范性使用頻度應用成果評 估安全性監(jiān)控省份 專區(qū)-生 態(tài) 圈 專 區(qū)-原 生 數(shù) 據(jù) 區(qū)實時采

32、集 批量采集 消息采集共享訪問大數(shù)據(jù)湖主數(shù)據(jù)區(qū)規(guī)劃大數(shù)據(jù)湖主數(shù)據(jù)區(qū)規(guī)劃 企業(yè)級核心企業(yè)級核心/統(tǒng)一運營保統(tǒng)一運營保障障主數(shù)據(jù)區(qū)主數(shù)據(jù)區(qū)負責存儲全域主數(shù)據(jù)負責存儲全域主數(shù)據(jù),并確保與主數(shù)據(jù)生產(chǎn)者保持同步,為大數(shù)據(jù)湖各區(qū)提供唯一主數(shù)據(jù)源,以保證湖中企企業(yè)業(yè) 級核心實體級核心實體數(shù)據(jù)的一致性和完整性,提升大數(shù)據(jù)湖運營效率及效果。 統(tǒng)一主數(shù)據(jù)標準:統(tǒng)一主數(shù)據(jù)標準:面向全 國各域各生產(chǎn)系統(tǒng)提供主 數(shù)據(jù)標準; 統(tǒng)一主數(shù)據(jù)存儲:統(tǒng)一主數(shù)據(jù)存儲:面向大 數(shù)據(jù)湖提供統(tǒng)一主數(shù)據(jù)存 儲能力; 統(tǒng)一主數(shù)據(jù)整合:統(tǒng)一主數(shù)據(jù)整合:清洗整 合各域主數(shù)據(jù),形成統(tǒng)一、 標準、唯一主數(shù)據(jù); 統(tǒng)一主數(shù)據(jù)服務:統(tǒng)一主數(shù)據(jù)服務:為大數(shù)

33、 據(jù)湖中各區(qū)提供主數(shù)據(jù)服 務;數(shù)據(jù)接數(shù)據(jù)接入入主數(shù)據(jù)主數(shù)據(jù)區(qū)區(qū)主數(shù)據(jù)整合主數(shù)據(jù)管理主數(shù)據(jù)目錄主數(shù)據(jù)共享主數(shù)據(jù)評估客戶產(chǎn)品渠道訂單主數(shù)據(jù)組織集團橫向 生產(chǎn)系統(tǒng)省份BMO 生產(chǎn)系統(tǒng)網(wǎng)絡/平臺 系統(tǒng)生態(tài)圈 生產(chǎn)系統(tǒng)其他系統(tǒng)整合整合數(shù)數(shù) 據(jù)據(jù)區(qū)區(qū)原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)生產(chǎn)數(shù)據(jù)入湖原 生 數(shù) 據(jù) 服 務 專 區(qū)主 數(shù) 據(jù) 入 湖主數(shù)據(jù)主數(shù)據(jù)整合數(shù)據(jù)原生數(shù)據(jù)數(shù)據(jù)專數(shù)據(jù)專區(qū)區(qū)生態(tài)圈生態(tài)圈 專區(qū)專區(qū)省省 份份 內(nèi)專專 區(qū)區(qū) 蒙貴 州河 北遼 寧寧 夏金融智能 連接智慧 家庭物聯(lián) 網(wǎng)新興 ICT目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設理念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設思路生態(tài)圈:探索新興業(yè)務入湖建設模生態(tài)

34、圈:探索新興業(yè)務入湖建設模式式共共享:享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃 運運營:營:大數(shù)據(jù)湖一體化運營管理建設12345生態(tài)圈系生態(tài)圈系統(tǒng)統(tǒng)已建新建大大 數(shù)數(shù) 據(jù)據(jù) 湖湖數(shù)據(jù)接數(shù)據(jù)接入入生產(chǎn)系統(tǒng)駐留生產(chǎn)直采前置采集IOT接入同步鏡像iWIFI海洋寬帶天翼高清 天翼網(wǎng)關智能組網(wǎng)翼支付甜橙欺詐盾天翼云盤 189郵箱家庭云地產(chǎn)大數(shù)據(jù)物聯(lián)網(wǎng)卡車管專家數(shù)據(jù)湖采集一站式配數(shù)據(jù)湖采集一站式配置置采集源連接 / 采集方式(FTP/API/流式/)采集類型(全量/增量)/ 采集計劃 / 采集存儲數(shù)據(jù)存數(shù)據(jù)存儲儲生產(chǎn)副本(已建)生產(chǎn)正本(新建)原生 數(shù)據(jù)智慧 家庭智能 連接互聯(lián)網(wǎng) 金融物聯(lián)網(wǎng)新興ICT整合 數(shù)據(jù)統(tǒng)一客

35、戶行為 賬號特征軌跡應用 數(shù)據(jù)地產(chǎn)大金融欺詐 數(shù)據(jù)專區(qū)分析專區(qū)車管專家云盤客戶家庭圈 營銷洞察畫像計算處計算處理理Strom實時流處理引擎Sparkstreaming離線批處理引擎HiveMPP機器學習引擎R圖數(shù)據(jù)庫協(xié)同計算引擎Data Broker內(nèi)存計算引擎Redis計算資源按需動態(tài)調(diào)計算資源按需動態(tài)調(diào)配配計算需求分類 / 資源隊列管控 / 租戶任務管理計算規(guī)模 / 優(yōu)先級別 / 時間窗規(guī)劃訪問共訪問共享享智慧 家庭新興 ICT智能 連接IPTV用戶流量軌跡客戶感知數(shù)據(jù)金融互聯(lián)網(wǎng) 翼支付合作商戶客戶金融特征支付風險識別物聯(lián)網(wǎng) 終端設備列表客戶故障記錄生態(tài)圈統(tǒng)一共享目生態(tài)圈統(tǒng)一共享目錄錄生態(tài)

36、圈客戶數(shù)據(jù) / 特征畫像數(shù)據(jù) / 客戶感知數(shù)據(jù) / 生態(tài)圈原生數(shù)據(jù) / 主數(shù)據(jù) / 整合數(shù)據(jù) / 專區(qū)數(shù)據(jù)生態(tài)運營協(xié)同生態(tài)資源互換生態(tài)精準營銷生態(tài)創(chuàng)新發(fā)現(xiàn)生態(tài)圈應生態(tài)圈應用用APIJDBCODBC沙箱共 性 基 礎 數(shù) 據(jù)專 業(yè) 應 用 數(shù) 據(jù)基于大數(shù)據(jù)湖的生態(tài)圈建設?;诖髷?shù)據(jù)湖的生態(tài)圈建設模式式生態(tài)圈入湖指導原則生態(tài)圈入湖指導原則 核心生態(tài)圈數(shù)據(jù)量龐大、繁雜,同時入庫對計算資源、并行處理能力、運營效率提出了極大的要求,基于此,應構(gòu)建科學、完核心生態(tài)圈數(shù)據(jù)量龐大、繁雜,同時入庫對計算資源、并行處理能力、運營效率提出了極大的要求,基于此,應構(gòu)建科學、完整整 的入湖流程及標準,保證生態(tài)圈數(shù)據(jù)能夠

37、順利、高效的入湖并發(fā)揮效的入湖流程及標準,保證生態(tài)圈數(shù)據(jù)能夠順利、高效的入湖并發(fā)揮效果果 貼近實際:充分融合業(yè)務貼近實際:充分融合業(yè)務需需 求,遵循業(yè)務優(yōu)先原求,遵循業(yè)務優(yōu)先原則則 計算效率:充分保證數(shù)據(jù)計算效率:充分保證數(shù)據(jù)質(zhì)質(zhì) 量,讓計算效率顯著提量,讓計算效率顯著提升升 邊際效益:合理控制數(shù)據(jù)邊際效益:合理控制數(shù)據(jù)入入 湖速度、在成本控制的湖速度、在成本控制的前提前提 下,實現(xiàn)效益最大下,實現(xiàn)效益最大化化 生態(tài)創(chuàng)新:數(shù)據(jù)、業(yè)務、生態(tài)創(chuàng)新:數(shù)據(jù)、業(yè)務、需需 求間的融會貫通,實現(xiàn)求間的融會貫通,實現(xiàn)生態(tài)生態(tài) 圈的關聯(lián)及衍生場圈的關聯(lián)及衍生場景景目標驅(qū)動入湖原則目標驅(qū)動入湖原則業(yè)務驅(qū)動數(shù)據(jù)分類

38、業(yè)務驅(qū)動數(shù)據(jù)分類1 了解生態(tài) 業(yè)務關鍵概念掌握生態(tài)整體經(jīng)營狀況生態(tài)核心核心資料生態(tài)經(jīng)營經(jīng)營數(shù)據(jù)2生態(tài)營銷營銷數(shù)據(jù)3 開展生態(tài)業(yè) 務數(shù)字化營銷生態(tài)管理管理數(shù)據(jù)4實現(xiàn)生態(tài)管 理運營一體化生態(tài)協(xié)同協(xié)同數(shù)據(jù)5 開拓生態(tài)業(yè) 務智慧創(chuàng)新價值驅(qū)動入湖邏輯價值驅(qū)動入湖邏輯維維度度說說明明權重權重系系 數(shù)數(shù)優(yōu)先優(yōu)先級級準確性數(shù)據(jù)準確無誤0.282高完整性數(shù)據(jù)完整0.213中一致性數(shù)據(jù)記錄規(guī)范0.087低及時性數(shù)據(jù)獲取及時0.234中價值性數(shù)據(jù)價值0.235高復用性關聯(lián)性0.347高生態(tài)圈數(shù)據(jù)入湖原生態(tài)圈數(shù)據(jù)入湖原則則 優(yōu)先滿足日常運營管理優(yōu)先滿足日常運營管理 業(yè)務價值雙驅(qū)動同步業(yè)務價值雙驅(qū)動同步 先核心后邊際再

39、全貌先核心后邊際再全貌 先難后易先難后易 先生態(tài)高于業(yè)務次高于運營管理先生態(tài)高于業(yè)務次高于運營管理主數(shù)主數(shù)據(jù)據(jù) 客戶數(shù)據(jù) 產(chǎn)品數(shù)據(jù) 賬戶數(shù)據(jù) .經(jīng)營數(shù)經(jīng)營數(shù)據(jù)據(jù) 收入數(shù)據(jù) 發(fā)展數(shù)據(jù) 繳費數(shù)據(jù) .營銷數(shù)營銷數(shù)據(jù)據(jù) 業(yè)務訂購數(shù)據(jù) 紅包數(shù)據(jù) 金融消費數(shù)據(jù) .管理數(shù)管理數(shù)據(jù)據(jù) 財務數(shù)據(jù) 成本/補貼數(shù)據(jù) 資源/庫存數(shù)據(jù) 業(yè)態(tài)生產(chǎn)數(shù)業(yè)態(tài)生產(chǎn)數(shù)據(jù)據(jù) 原始數(shù)據(jù) 生態(tài)協(xié)同數(shù)據(jù) 業(yè)務流程數(shù)據(jù) .解決生產(chǎn)經(jīng)營看數(shù)解決生產(chǎn)經(jīng)營看數(shù):以生態(tài)圈應用和價值提升需求為導向,優(yōu)先將客戶、經(jīng)營、 營銷、管理、生產(chǎn)方面的核心主數(shù)據(jù)入湖,滿足當前業(yè)務發(fā)展和管理需求階段階段一一主數(shù)主數(shù)據(jù)據(jù) 渠道數(shù)據(jù) 供應商數(shù)據(jù) 商客數(shù)據(jù) .經(jīng)營數(shù)經(jīng)營

40、數(shù)據(jù)據(jù) 活動數(shù)據(jù) 交易類數(shù)據(jù) .營銷數(shù)營銷數(shù)據(jù)據(jù) 業(yè)務感知數(shù)據(jù) 卡券數(shù)據(jù) 保險數(shù)據(jù) .管理數(shù)管理數(shù)據(jù)據(jù) 人力資源數(shù)據(jù) 運維數(shù)據(jù) 網(wǎng)絡數(shù)據(jù) .業(yè)態(tài)生產(chǎn)數(shù)業(yè)態(tài)生產(chǎn)數(shù)據(jù)據(jù) 互聯(lián)網(wǎng)數(shù)據(jù) 用戶行為數(shù)據(jù) 活動數(shù)據(jù) .補充采集數(shù)據(jù)補充采集數(shù)據(jù) . .階段階段二二開展大數(shù)據(jù)價值挖掘:開展大數(shù)據(jù)價值挖掘:將各模塊未導入的全量數(shù)據(jù)入湖,同時豐富生態(tài)邊際和互 聯(lián)網(wǎng)數(shù)據(jù),拓展應用場景,實現(xiàn)大數(shù)據(jù)精準營銷和管理數(shù)據(jù)深度拓展:數(shù)據(jù)深度拓展:不斷豐富和拓展數(shù)據(jù)湖的數(shù)據(jù),包含數(shù)據(jù)的橫向范圍和縱向深度階段階段三三缺失的原生態(tài)數(shù)據(jù)缺失的原生態(tài)數(shù)據(jù) . .其他數(shù)據(jù)其他數(shù)據(jù) . .生態(tài)圈入湖建設思路與步生態(tài)圈入湖建設思路與步驟驟生態(tài)

41、圈入湖建設要求與規(guī)生態(tài)圈入湖建設要求與規(guī)范范入湖建設演入湖建設演進進生態(tài)圈入生態(tài)圈入湖湖規(guī)規(guī) 范范 價價 值值 靈靈 活活生態(tài)數(shù)據(jù)運生態(tài)數(shù)據(jù)運營營 原生數(shù)據(jù)規(guī)范保原生數(shù)據(jù)規(guī)范保障障 業(yè)務規(guī)范:業(yè)務指導、流程、制度等文檔 主數(shù)據(jù):范圍、內(nèi)容及管理規(guī)范 數(shù)據(jù)字典:數(shù)據(jù)模型、編碼約束、元數(shù)據(jù)等 數(shù)據(jù)流圖(DFD):生產(chǎn)數(shù)據(jù)流、加工數(shù)據(jù)流等 指標口徑:術語定義、報表指標說明等 生態(tài)能力入湖規(guī)生態(tài)能力入湖規(guī)劃劃 數(shù)據(jù)規(guī)模:生態(tài)全量、核心資料、經(jīng)營數(shù)據(jù)等大小 更新頻率:交易頻率、業(yè)務變更頻率等 存儲結(jié)構(gòu):生產(chǎn)數(shù)據(jù)存儲模式、存儲周期、分層結(jié)構(gòu)等 接入要求:I/O帶寬、接入約束、生產(chǎn)備份情況等 生態(tài)入湖步生態(tài)

42、入湖步驟驟 依據(jù)數(shù)據(jù)價值推進生態(tài)數(shù)據(jù)入湖 生態(tài)圈需求驅(qū)動原生數(shù)據(jù)的入湖 原生入湖演原生入湖演進進 原則上遵循生態(tài)數(shù)據(jù)原生入湖 當原生入湖存在海量采集(性價比低),理解/支撐困難等 情況,允許按照如下原則進行非原生數(shù)據(jù)入湖:核心和經(jīng)營入湖:非原生采集,匯入整合層營銷和運營入湖:根據(jù)需要采集原生并逐步替換生態(tài)協(xié)同入湖:完全實現(xiàn)原生數(shù)據(jù)入湖 生態(tài)業(yè)務變動大且原生結(jié)果滯后數(shù)據(jù),允許前瞻性獲取生產(chǎn)變化 過程表,避免數(shù)據(jù)模型的大幅調(diào)整 交易類: 主數(shù)據(jù)/編碼類:實時全量同步 運營規(guī)范要求(聯(lián)動同步運營規(guī)范要求(聯(lián)動同步) 業(yè)務調(diào)整通知:新業(yè)務定義,生產(chǎn)約束變更、業(yè)務流程變更等 數(shù)據(jù)運營同步:模型結(jié)構(gòu)變更、

43、歷史數(shù)據(jù)調(diào)整、口徑新增/調(diào)整等 生產(chǎn)模型建設規(guī)范:新增/變更模型遵循大數(shù)據(jù)湖整體規(guī)范要求 原生數(shù)據(jù)入湖方原生數(shù)據(jù)入湖方案案資料類: 初始化全量上傳歷史全量同步后續(xù)變更采集周期增量采集全量合并整合全量合并整合 生態(tài)圈入湖要求生態(tài)圈入湖要求立足中國電信企業(yè)級視角生產(chǎn)側(cè)與數(shù)據(jù)側(cè)建設協(xié)同生產(chǎn):原生接入保障數(shù)據(jù):共享服務保障生產(chǎn)源端規(guī)生產(chǎn)源端規(guī)范范 運營原則運營原則前瞻性全面性科學性合理性生態(tài)圈數(shù)據(jù)整合處理原則及關鍵生態(tài)圈數(shù)據(jù)整合處理原則及關鍵點點交費助手用戶綁卡用戶代金券用戶甜橙白條用戶手手機機 號號碼碼統(tǒng)一 客戶ID手機 號碼交費助手 用戶ID綁卡 用戶ID代金券 用戶ID甜橙白條 用戶ID與BSS

44、一致定期?;钇诒L硪鎸毣甬a(chǎn)品申購表統(tǒng)一客戶ID理財類型理財產(chǎn)品支付類型理財金額與BSS一致 動態(tài)屬性分離動態(tài)屬性分離: 采用實體屬性分 解的模型設計方 式,滿足業(yè)務多 變的發(fā)展需求IDProductIDLoadDTSREC_SRC1PDT0012014.3.14理財2PDT0022014.3.15交費助手IDCustomerIDProductIDChannelIDLoadDTSREC_SRC1ABC123456PDT001CNL0012014.3.14基金產(chǎn)品申購表2DFGSG768PDT002CNL0012014.3.15通訊繳費3C00011PDT001CNL0022014.3.14添益

45、寶4C12484PDT002CNL0022014.5.14生活繳費IDCustomerIDLoadDTSREC_SRC1ABC1234562014.3.14理財2DFGSG7682014.3.15交費助手客戶客戶 實實體體產(chǎn)品產(chǎn)品 實實體體客戶產(chǎn)品客戶產(chǎn)品 訂購關訂購關系系IDChannelIDLoadDTSREC_SRC1CNL0012014.3.14o2o商戶2CNL0022014.3.15網(wǎng)關商戶渠道渠道 實實體體IDProductID結(jié)算方式LoadDTS REC_SRC1PDT003全額2014.3.14代金券配置2PDT003差額2014.3.15代金券配置IDProductID生

46、效方式LoadDTSREC_SRC1PDT003自動設置2014.3.14代金券配置2PDT003發(fā)放設置2014.3.15代金券配置產(chǎn)品屬性產(chǎn)品屬性- 生效方生效方式式產(chǎn)品屬性產(chǎn)品屬性- 結(jié)算方結(jié)算方式式 生態(tài)業(yè)務聚合:生態(tài)業(yè)務聚合:聚焦各 類業(yè)務應用,規(guī)劃生態(tài) 整合視圖 核心實體對齊:核心實體對齊:跨業(yè)務的實體數(shù) 據(jù)一致性關聯(lián)大數(shù)據(jù)湖整合區(qū)建設原大數(shù)據(jù)湖整合區(qū)建設原則則 基于共性化共性化數(shù)據(jù)處理,支撐廣泛、穩(wěn)定的共享應用; 支撐湖標準化標準化的數(shù)據(jù)規(guī)范轉(zhuǎn)換; 跨域數(shù)據(jù)的關聯(lián)性關聯(lián)性和橫向?qū)R;生態(tài)圈數(shù)據(jù)整合關鍵生態(tài)圈數(shù)據(jù)整合關鍵點點統(tǒng)統(tǒng) 一一 ID生態(tài)圈自然人實體歸集與對生態(tài)圈自然人實體歸

47、集與對齊齊客戶資料歸集應具備基于資料信息的規(guī)則匹配識別和基于客戶海量的通信相關信息的挖掘識別方法:1通過規(guī)則匹配識別技術,高效地完成準確性較高的資料信息自然人識別;公眾號行業(yè)調(diào)研報告2基于大數(shù)據(jù)技術構(gòu)建自然人識別模式,作為規(guī)則識別的有效補充,提高自然人識別成功率,減少人工核查確認工作量。關鍵能力要求關鍵能力要求: 規(guī)則識別和大數(shù)據(jù)技術識別配合完成資料聚合;深度應用大數(shù)據(jù)識別技術,通過照片留存、交際圈、位置軌跡、虛擬身份等信息,識別出 從資料層面不能反映出的同一自然人。 大數(shù)據(jù)技術識別應用到的技術:文本分詞、文本匹配、似度計算、多音字庫、象形字庫、網(wǎng)絡圖譜算法、指紋權重、關系傳遞等;聚合規(guī)則識物

48、聯(lián)網(wǎng)互聯(lián)網(wǎng)金融智能連接智慧家庭原生數(shù)據(jù)自然人識別自然人沉淀大數(shù)據(jù)識別照片留存 交際圈 位置軌跡虛擬身份繳費信息終端信息客戶接觸 自然人自然人:客戶客戶A 移動A套餐 Iphone用戶 客戶A1省分省分1 移動C套餐 預付費 用戶 客戶A1省分省分2證件號碼姓名別地址 聯(lián)系人 工作單位 規(guī)則庫綜 合 評 價實體歸集過實體歸集過程程基于實體 完整性基于業(yè)務 邏輯自頂向下自頂向下自底向上自底向上數(shù)據(jù)整合數(shù)據(jù)整合/加工規(guī)則加工規(guī)則原生數(shù)據(jù)用戶信息用戶產(chǎn)表品訂購客戶 信息客戶實 名認證客戶聯(lián)系人 信用度用戶積分 郵寄信息專區(qū)應用自然人基本 自然人有效移網(wǎng) 信息戶數(shù)信息保證上層覆蓋保證上層覆蓋性性自然人黑

49、名單 信息自然人用戶360信息差異數(shù) 據(jù)下發(fā)編碼標準化自然人基本信息自然人擴展信息模型轉(zhuǎn)化模型轉(zhuǎn)化/編碼統(tǒng)編碼統(tǒng)一一自然人用戶信息自然人用戶 擴展屬性表整合歸集自然人基本信自然人擴展息信息自然人 用戶信息自然人用戶 擴展信息差異數(shù)據(jù)實體歸集數(shù)據(jù)流實體歸集數(shù)據(jù)流程程新興ICT生態(tài)圈數(shù)據(jù)接入與存儲生態(tài)圈數(shù)據(jù)接入與存儲通過對五大生態(tài)圈 數(shù)據(jù)采集入湖,統(tǒng)一規(guī) 范轉(zhuǎn)換后,為各類專區(qū) 應用提供數(shù)據(jù)支撐。 生態(tài)圈入生態(tài)圈入湖湖根據(jù)生態(tài)圈系統(tǒng)的建設情 況,科學規(guī)劃多種采集方 式入湖 生態(tài)圈數(shù)據(jù)規(guī)生態(tài)圈數(shù)據(jù)規(guī)范范圍繞大數(shù)據(jù)湖功能分區(qū), 探索各類數(shù)據(jù)的存儲要求 和能力建設 生態(tài)應用服生態(tài)應用服務務針對生態(tài)業(yè)務應用

50、需求, 確定大數(shù)據(jù)湖的應用支撐 模式,構(gòu)建專區(qū)建設規(guī)范智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT原生數(shù)據(jù)原生數(shù)據(jù)區(qū)區(qū)大數(shù)據(jù)大數(shù)據(jù)湖湖五大生態(tài)五大生態(tài) 圈數(shù)圈數(shù)據(jù)據(jù)批量采集批量采集 實 時 采 集實 時 采 集 準實時采集準實時采集應用數(shù)據(jù)應用數(shù)據(jù)區(qū)區(qū)互聯(lián)網(wǎng)金 融專區(qū)物聯(lián)網(wǎng) 專區(qū)生態(tài)創(chuàng)新 專區(qū)用戶行為軌跡智能連接物聯(lián)網(wǎng)智慧家庭互聯(lián)網(wǎng)金融新興ICT主主數(shù)數(shù) 據(jù)據(jù)區(qū)區(qū)統(tǒng)一客戶信息生態(tài)業(yè)務產(chǎn)品統(tǒng)一帳戶信息標準編碼信息整合數(shù)據(jù)整合數(shù)據(jù)區(qū)區(qū)生態(tài)收入貢獻 互金業(yè)務訂購用戶關聯(lián)信息新 業(yè) 務 采新 業(yè) 務 采 集集入 湖 模 式 探入 湖 模 式 探 索索對 接 應 用 需對 接 應 用 需 求求專 區(qū) 規(guī)

51、范 制專 區(qū) 規(guī) 范 制 定定數(shù) 據(jù) 分 區(qū) 規(guī)數(shù) 據(jù) 分 區(qū) 規(guī) 劃劃湖 存 儲 功 能 定湖 存 儲 功 能 定 義義生 態(tài) 采 集 支生 態(tài) 采 集 支 撐撐入 湖 采 集 能 力 驗入 湖 采 集 能 力 驗 證證目目錄錄背背景:景:大數(shù)據(jù)湖的發(fā)展背景與建設理念體體系:系:大數(shù)據(jù)湖體系規(guī)劃與建設思路生態(tài)圈:生態(tài)圈:探索新興業(yè)務入湖建設模式共共享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)享:大數(shù)據(jù)湖統(tǒng)一訪問共享規(guī)劃劃 運運營:營:大數(shù)據(jù)湖一體化運營管理建設12345大數(shù)據(jù)場景下數(shù)據(jù)服務的能力建設要大數(shù)據(jù)場景下數(shù)據(jù)服務的能力建設要求求大數(shù)據(jù)場景:混搭架構(gòu)平臺、多系統(tǒng)共存、不同數(shù)據(jù)體系、各種應用場景需大數(shù)據(jù)場

52、景:混搭架構(gòu)平臺、多系統(tǒng)共存、不同數(shù)據(jù)體系、各種應用場景需求求統(tǒng)統(tǒng)一一 標準標準化化 透明透明化化 安安全全 高高效效 外部應用的便捷接外部應用的便捷接入入 靈活安全的權限管控機靈活安全的權限管控機制制 跨底層數(shù)據(jù)存儲平跨底層數(shù)據(jù)存儲平臺臺混搭架構(gòu)平臺,如 HDFS、MPP、SMP等多種數(shù)據(jù)存儲體系,如關系 型DB、KV-DB、文件系統(tǒng)等 統(tǒng)一標準化數(shù)據(jù)查統(tǒng)一標準化數(shù)據(jù)查詢詢通用的數(shù)據(jù)查詢語言,支持跨平 臺訪問,如PL/SQL,HQL等 跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪問問多應用系統(tǒng)的物理結(jié)構(gòu)透明化 邏輯封裝,如OLTP、OLAP等多種數(shù)據(jù)服務場景的權限 管控,如查詢、分析等多種應用接

53、入能力,如 JDBC、Socket等大數(shù)據(jù)湖統(tǒng)一訪問共享建設規(guī)劃大數(shù)據(jù)湖統(tǒng)一訪問共享建設規(guī)劃 統(tǒng)一目錄統(tǒng)一目錄/透明訪透明訪問問訪訪 問問 共共 享享統(tǒng)一訪問共享:統(tǒng)一訪問共享:管、用、管、用、看看 管管:基于湖中數(shù)據(jù)構(gòu)建 統(tǒng)一數(shù)據(jù)目錄,屏蔽湖 中數(shù)據(jù)物理存儲地址, 提供實現(xiàn)湖中可共享數(shù) 據(jù)的管理 用用:數(shù)據(jù)服務中間件為 應用提供多樣化數(shù)據(jù)接 口訪問能力,如API、 JDBC/ODBC、消息、 訂閱等能力 看看:目錄視圖為開發(fā)者 提供湖中可共享數(shù)據(jù)的 統(tǒng)一目錄視圖,并管理 湖中數(shù)據(jù)訪問授權數(shù)據(jù)計算與存儲資數(shù)據(jù)計算與存儲資源源計算引擎數(shù)據(jù)存儲文本數(shù)據(jù)ORACLEHIVEHBASE統(tǒng)一數(shù)據(jù)目錄數(shù)據(jù)

54、讀取數(shù)數(shù) 據(jù)據(jù) 能能 力力數(shù)據(jù) 采集數(shù)據(jù) 加工數(shù)據(jù) 挖掘數(shù)據(jù) 可視化服務 封裝 數(shù)據(jù) 應用數(shù)據(jù)訪問接口數(shù)據(jù)訪問接口數(shù)據(jù)服務中間件API接口JDBC/ODBC消息數(shù)據(jù)緩存內(nèi)存計算數(shù)據(jù)訪問引擎函數(shù)計算統(tǒng)計分析規(guī)則配置接口鑒權數(shù)據(jù)授權目錄管控數(shù)據(jù)開放權限申請授權審批訪問共享訪問共享是湖中數(shù)據(jù)和應用、能力之間的橋梁,任何功能/應用模塊使用湖中數(shù)據(jù)時,不需要關心數(shù)據(jù)的存儲方式、存儲介 質(zhì)、存儲位置等信息,只要和訪問共享連接既可以實現(xiàn)湖中數(shù)據(jù)的訪問 統(tǒng)一訪問共享典型應用場景統(tǒng)一訪問共享典型應用場景共享數(shù) 據(jù)訪問數(shù)據(jù) 挖掘數(shù)據(jù)挖 掘結(jié)果數(shù)據(jù)探索數(shù)據(jù)訪問生產(chǎn)生產(chǎn) 系統(tǒng)系統(tǒng)自有 數(shù)據(jù) 接口遵循入湖 規(guī)范統(tǒng)一數(shù)據(jù)

55、目錄統(tǒng)一數(shù)據(jù)目錄共享數(shù) 據(jù)訪問專區(qū)數(shù) 據(jù)訪問數(shù)據(jù) 加工數(shù)據(jù)訪問數(shù)據(jù)計算與存儲資數(shù)據(jù)計算與存儲資源源原生數(shù)據(jù)原生數(shù)據(jù)整合數(shù)據(jù)整合數(shù)據(jù)專區(qū)數(shù)據(jù)專區(qū)數(shù)據(jù)生產(chǎn)數(shù)據(jù)生產(chǎn)數(shù)據(jù)共享數(shù) 據(jù)訪問服務封裝服務訂閱服務網(wǎng)關數(shù)據(jù)訪問訪問共享訪問共享數(shù)據(jù)可視化1數(shù)據(jù)挖數(shù)據(jù)挖掘掘3 能力開放能力開放(API)專區(qū)應專區(qū)應用用數(shù)據(jù)服務中間件數(shù)據(jù)服務中間件目錄管控目錄管控新建系統(tǒng)新建系統(tǒng)24專區(qū)應用開發(fā)者通過統(tǒng)一訪問引擎訪問湖中共享數(shù)據(jù),專區(qū)應用直接訪問自有專區(qū)數(shù)據(jù),實現(xiàn)湖中數(shù)據(jù)統(tǒng)一共享管控和應用 訪問靈活訪問自有專區(qū)數(shù)據(jù)統(tǒng)一數(shù)據(jù)目錄統(tǒng)一數(shù)據(jù)目錄 共享列表共享列表/質(zhì)量保障質(zhì)量保障/安全可控安全可控數(shù)據(jù)存數(shù)據(jù)存儲儲元數(shù)據(jù)管理

56、數(shù)據(jù)描述及統(tǒng)計信息數(shù)據(jù)稽核統(tǒng)一數(shù)據(jù)目統(tǒng)一數(shù)據(jù)目錄錄人工審人工審核核數(shù)據(jù)質(zhì)量審數(shù)據(jù)質(zhì)量審核核數(shù)據(jù)安全審數(shù)據(jù)安全審核核開放范圍審開放范圍審核核開放流程定開放流程定義義運營者審核通過表、視圖結(jié)合元數(shù)據(jù)及數(shù)據(jù)統(tǒng)計信息訪問共享數(shù)據(jù)服務中間件目錄管控湖中數(shù)據(jù)湖中數(shù)據(jù)只有經(jīng)過質(zhì)量質(zhì)量和安全安全評 估,符合應用開發(fā)的條件后,在 明確開放審批流程開放審批流程的前提下,進 入統(tǒng)一數(shù)據(jù)目錄對外共享基于湖中具備共享條件的數(shù)據(jù)構(gòu)建統(tǒng)一數(shù)據(jù)目錄,通過訪問引擎為應用開發(fā)者、數(shù)據(jù)運營者提供湖中數(shù)據(jù)訪問能力,是數(shù)據(jù) 應用、運營和價值實現(xiàn)的基礎。大數(shù)據(jù)服務關鍵能力:統(tǒng)一數(shù)據(jù)接入大數(shù)據(jù)服務關鍵能力:統(tǒng)一數(shù)據(jù)接入/轉(zhuǎn)換轉(zhuǎn)換/服務對接

57、能服務對接能力力統(tǒng)一數(shù)據(jù)服務代理統(tǒng)一數(shù)據(jù)服務代理 Data Broker大數(shù)據(jù)系大數(shù)據(jù)系統(tǒng)統(tǒng) Hive、Hbase、 Impala、數(shù)據(jù)服務數(shù)據(jù)服務Query、API等能力開放工具能力開放工具查詢工具、挖掘工具、OLAP工具等數(shù)據(jù)應用數(shù)據(jù)應用報表、應用等SMP數(shù)據(jù)數(shù)據(jù)庫庫 Oracle、 Mysql、 DB2、解釋 查詢統(tǒng)一對外接入統(tǒng)一對外接入(JDBC、Socket、Restful)統(tǒng)一數(shù)據(jù)連接統(tǒng)一數(shù)據(jù)連接(Agent connector)OLAP引引擎擎 Apache Kylin、 Cognos、MPP數(shù)據(jù)數(shù)據(jù)庫庫 GreenPlum、 Vertica、傳統(tǒng)文件系傳統(tǒng)文件系統(tǒng)統(tǒng) Excel

58、、XML、 Json、AQL數(shù)據(jù) 聯(lián)邦PL/SQLHQLPostgresSQL性能 安全性能 優(yōu)化數(shù)據(jù) 安全緩存內(nèi)存優(yōu)先轉(zhuǎn)換訪問鑒 權脫敏加 密元數(shù)據(jù)數(shù)據(jù)集 關聯(lián)統(tǒng)一維表數(shù)據(jù)預覽格式 轉(zhuǎn)換源端連接統(tǒng)一數(shù)據(jù)服務中間件統(tǒng)一數(shù)據(jù)服務中間件 跨域聯(lián)邦跨域聯(lián)邦/標準查詢標準查詢/統(tǒng)一訪統(tǒng)一訪問問37 跨底層數(shù)據(jù)存儲平跨底層數(shù)據(jù)存儲平臺臺多種數(shù)據(jù)存儲體系,如關系 型DB、KV-DB、文件系統(tǒng) 等 統(tǒng)一標準化數(shù)據(jù)查統(tǒng)一標準化數(shù)據(jù)查詢詢通用的數(shù)據(jù)查詢語言,支持 跨平臺訪問,如PL/SQL, HQL等 靈活安全的權限管控機靈活安全的權限管控機 制制多種數(shù)據(jù)服務場景的權限管控,如查詢、分析等 跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪

59、跨數(shù)據(jù)結(jié)構(gòu)的邏輯化訪 問問多應用系統(tǒng)的物理結(jié)構(gòu)透明化邏輯封裝,如OLTP、 OLAP等 外部應用的便捷接入外部應用的便捷接入 多種應用接入能力,如 JDBC、Socket等各類跨架構(gòu)數(shù)據(jù)源端連接與訪各類跨架構(gòu)數(shù)據(jù)源端連接與訪問問38靈活自主的數(shù)據(jù)服務集定靈活自主的數(shù)據(jù)服務集定義義39DataBroker查詢語法查詢語法40常用函數(shù):AQL語法(類SQL):示例1:在用戶增長數(shù)據(jù)集中,查詢2018年10月比9月的入網(wǎng)用戶增 長比例,按地區(qū)分組,按排序字段排序SELET ROUND(month_ten-month_nine)/ month_nine) as “增長比例”, user_area as

60、 “地區(qū)”FROM user_in_month_detail GROUP BY user_area ORDER BY order_codeDataBroker查詢示例查詢示例示例2:按照省份,將流量按照100M為步長分檔統(tǒng)計,并忽略小于10 M的用戶數(shù)SELECT area_no,segm_step(data_flow,100,10) as 流量分檔,coun t(user_id) as 用戶數(shù)FROM user_used_flowGROUP BY area_no,SEGM_STEP(data_flow,100,10) as 流量分 檔”示例3:按照省,賬期,分組統(tǒng)計指標1,指標2值,同時統(tǒng)計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論