GBaseMPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案課件_第1頁
GBaseMPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案課件_第2頁
GBaseMPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案課件_第3頁
GBaseMPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案課件_第4頁
GBaseMPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案課件_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、GBase MPP數(shù)據(jù)倉庫和數(shù)據(jù)中臺建設方案邏輯數(shù)據(jù)倉庫助力新一代數(shù)據(jù)倉庫、數(shù)據(jù)中臺建設第1頁,共39頁。新一代數(shù)據(jù)倉庫和數(shù)據(jù)中臺 助力企業(yè)信息化3.01第2頁,共39頁。1、信息化1.0階段(部門級業(yè)務及事務處理)20世紀80年代到90年代,目前大部分的大中型企業(yè)都已脫離這一階段,僅有部分小企業(yè)信息化仍處于這一狀態(tài)。2、信息化2.0階段(企業(yè)級管理系統(tǒng))20世紀90年代中后期開始,目前大部分大中型企業(yè)都處于這一階段,信息孤島是 這一階段企業(yè)面臨的主要挑戰(zhàn),集成、整合是工作的重心和難點。3、信息化3.0階段(企業(yè)級決策支持)隨著云計算、大數(shù)據(jù)等新興技術的快速發(fā)展,信息化地位再次提升,信息化已成

2、 為戰(zhàn)略創(chuàng)新的重要工具和手段。目前處于該階段的企業(yè)大部分是互聯(lián)網企業(yè)和 金融、電信信息化程度較高的行業(yè),是大多數(shù)企業(yè)未來信息化建設的目標和方 向。信息化3.0也稱為數(shù)字化3.0,它以數(shù)據(jù)來驅動業(yè)務變革,該階段是 行業(yè)用戶數(shù)字化轉型升級的目標信息化內容數(shù)據(jù)分析利用多系統(tǒng)整合單系統(tǒng)應用提升效率流程與業(yè)務與管理創(chuàng)新 服務創(chuàng)新部門內社會化組織內信息化范圍信息化價值信息化1.0信息化2.0信息化3.0企業(yè)信息化技術發(fā)展歷程第3頁,共39頁。企業(yè)信息化2.0企業(yè)級管理系統(tǒng)ERP、CRM、PDM企業(yè)內及上下游業(yè)務、流程整合企業(yè)信息化3.0企業(yè)級決策支持數(shù)據(jù)驅動 業(yè)務變革LDW、DaaS、Data lake企

3、業(yè)內部、外部、互聯(lián)網、物聯(lián)網全數(shù)據(jù) 融合,大數(shù)據(jù)、人工智能,驅動業(yè)務創(chuàng)新,互聯(lián)網+下一代大數(shù)據(jù)平臺,數(shù)據(jù)中臺,新一代企 業(yè)級數(shù)據(jù)倉庫,數(shù)據(jù)分析、預測、數(shù)據(jù)驅 動業(yè)務企業(yè)信息化1.0計算機輔助辦公財務、人事、OA、進銷存 部門級業(yè)務及事務處理部門級管理系統(tǒng)利用計算機完成文字處理、報表統(tǒng)計、 賬務記錄企業(yè)信息化技術發(fā)展階段特征第4頁,共39頁。數(shù) 據(jù) 集 市Just Give MeSome Data and Fast!自下而上/企 業(yè) 級 數(shù) 據(jù) 倉 庫整 合 數(shù) 據(jù) 倉 庫Give MeGood DataBut Do It Efficiently自上而下EDW/全 面 分 析 生 態(tài) 環(huán) 境新

4、一 代 數(shù) 據(jù) 倉 庫Give Me All DataFast,Simple & Effectively!融合,分層,統(tǒng)一管理EDWDiscoverData lakeUnified Data Platform 數(shù)據(jù)虛擬化數(shù)據(jù)倉庫技術架構演進:從報表統(tǒng)計到全數(shù)據(jù)分析第5頁,共39頁。數(shù)據(jù)實時化(實時同步和流式處理能力):數(shù)據(jù)實時化,是指數(shù)據(jù)從產生(更新至業(yè)務數(shù)據(jù)庫或日志)到最終消費(數(shù)據(jù)報表、儀表板、分析、 挖掘、數(shù)據(jù)應用等),支持毫秒級秒級分鐘級延遲(嚴格來說,秒級分鐘級屬于準實時,這里統(tǒng)一稱為實時)。數(shù)據(jù)虛擬化(虛擬混合運算和統(tǒng)一服務能力):數(shù)據(jù)虛擬化,是指對于用戶或用戶程序而言,面對的是統(tǒng)

5、一的交互方式和查詢語言,而無需關 注數(shù)據(jù)實際所在的物理庫和方言及交互方式(異構系統(tǒng)異構查詢語言)的一種技術。用戶的使用體驗是面對一個單一數(shù)據(jù)庫進行操作,但其實這是一個虛擬化的數(shù)據(jù)庫,數(shù)據(jù)本身并不存放于虛擬數(shù)據(jù)庫中。數(shù)據(jù)平民化(可視化和自助配置能力):普通用戶(無專業(yè)大數(shù)據(jù)技術背景的數(shù)據(jù)從業(yè)人員),可以通過可視化的用戶界面,自助的通過配置 和SQL方式使用數(shù)據(jù)完成自己的工作和需求,并無需關注底層技術層面問題(通過計算資源云化,數(shù)據(jù)虛擬化等技術)。數(shù)據(jù)協(xié)作化(多租戶和分工協(xié)作能力):技術人員和業(yè)務人員可以在同一個平臺上,發(fā)揮各自所長,分工協(xié)作完成日常BI活動。這就對平臺的 多租戶能力和分工協(xié)作能力

6、提出了較高要求,一個好的現(xiàn)代數(shù)據(jù)平臺是可以支持更好的數(shù)據(jù)協(xié)作化能力的。New Data Warehouse的重要能力第6頁,共39頁。Gartner 2012:Pace Layered Application StrategyGartner 2016 : bi-modal IT framework核心目標是解決企業(yè)面對業(yè)務發(fā)展需求與IT架構、應用架構速度不一致的矛盾。這種矛盾隨著信息社會的扁平化變得越來越尖銳!業(yè)務需求的多樣性、靈活性、不確定性、交付的速度 vs IT的穩(wěn)定性、確定性的矛盾應用架構、數(shù)據(jù)架構造成的各種信息、數(shù)據(jù)孤島 vs 全局的洞察力、未來的預測需求IT建設思想、方法的“標準化

7、“ 與 業(yè)務創(chuàng)新需求的靈活性的矛盾投資、采購模式的“標準化”與 試錯模式的矛盾業(yè)務中臺、數(shù)據(jù)中臺 etc:why ?解決方法: 將業(yè)務分成不同的層次和步調、采用不同的方法投資、構建;將數(shù)據(jù)平臺化、服務化,資產化。這樣可 以同時兼顧后臺重量級應用的穩(wěn)定性、長生命周期與前臺創(chuàng)新業(yè)務和應用的靈活性、短生命周期的需求?!爸信_”的 主要目標是讓前臺的業(yè)務更加靈活、更具有創(chuàng)新性,是以創(chuàng)新業(yè)務驅動的一套方法與技術的組合。第7頁,共39頁。類型SOR(System of Record,process and data)SOD(System of Differentiation, Integration and

8、 Exchange)SOI(System of Innovation, Interaction and Content)改變節(jié)奏緩慢、不頻繁、漸進(按年計)中等、比較頻繁(按月計)靈活、快速、隨意(每周,甚至每天)業(yè)務流程集成的、標準化的、穩(wěn)定的高度客戶化、配置化不清晰、不確定、探索式、實驗性生命周期大于10年2-5年3-12個月戰(zhàn)略關注點高度標準化、流程化、運營效率敏捷、靈活、競爭優(yōu)勢顛覆式、創(chuàng)新業(yè)務、嘗試性質資金來源CAPEX & OPEX:年度預算IT或部門的預算部門的OPEX,創(chuàng)新預算相關方高度的高管參入、低度的最終用戶參與相關LOB主管,用戶核心人員低度的高管參入、高度的最終用戶參與

9、“The pace-layered approach acknowledges that process and data integrity requirements will be different within each layer,and defines a set of architectural standards at each level to accelerate an organizations ability to adapt”來源:GartnerGartner:Pace-layered Application Strategy for Innovation第8頁,共3

10、9頁。Gartner Researchs bimodal IT framework recognizes that traditional development practices are no longer sufficient for organizations with growing enterprise application demand. Instead, the bimodal IT strategy calls for two parallel tracks that support rapid application development for digital inn

11、ovation priorities, alongside existing application maintenance and operational stabilization projects.雙峰模式將快速變化的創(chuàng)新型業(yè)務需求與現(xiàn)有的穩(wěn)定的核心業(yè)務需求融合為一體,在滿足企業(yè)傳統(tǒng)業(yè) 務穩(wěn)定的同時帶來新業(yè)務的快速創(chuàng)新與迭代來源:GartnerGartner: bi-modal 雙峰模式第9頁,共39頁。Characteristics for Mode 1: Development projects related to core system maintenance, stabilit

12、y or efficiency. These require highly specialized programmers and traditional, slow moving development cycles. There is little need for business involvement.Characteristics for Mode 2: Development projects that help innovate or differentiate the business. These require a high degree of business invo

13、lvement, fast turnaround, and frequent update.Mode 2 requires a rapid path (or IT fast lane) to transform business ideas into applications.來源:GartnerBi-Modal 與 Pace-layered Application Strategy第10頁,共39頁。數(shù)據(jù)中臺:數(shù)據(jù)中臺是指通過數(shù)據(jù)技術,對海量數(shù)據(jù)進行采集、計算、存 儲、加工,同時統(tǒng)一標準和口徑,形成大數(shù)據(jù)資產層,進而為客戶提 供高效服務。它是一個承接技術,引領業(yè)務,構建規(guī)范定義的、全域可連接

14、 萃取的、智慧的數(shù)據(jù)處理平臺。最終實現(xiàn)了:讓一切業(yè)務數(shù)據(jù)化,一切數(shù)據(jù)業(yè)務化數(shù)據(jù)中臺的核心是在多源異構的數(shù)據(jù)集下,數(shù)據(jù)中 臺怎樣處理數(shù)據(jù)共享,數(shù)據(jù)的共享與分享其實是整 個大數(shù)據(jù)的精神所在數(shù)據(jù)中臺的定義第11頁,共39頁。數(shù)據(jù)煙囪:各個系統(tǒng)野蠻生長,重復建設,數(shù)據(jù)孤 島傳統(tǒng)的數(shù)據(jù)倉庫:解決不了海量數(shù)據(jù)、異構數(shù)據(jù),實時處理等一系列問題多個項目,重復工作:沒有把能力沉淀成產品和平臺,為了快 速響應用戶的需求,借助平臺化的公用 數(shù)據(jù)模型提高響應力數(shù)據(jù)煙囪傳統(tǒng)數(shù)倉進化到邏輯數(shù)倉HadoopJS. 傳統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)煙囪進化到數(shù)據(jù)共享多個項目,重復工作公用數(shù)據(jù)模型,提高 響應力為何需要數(shù)據(jù)中臺 ?第12頁,共

15、39頁。數(shù)據(jù)技術:海量數(shù)據(jù)信息的采集,計算,加工對數(shù)據(jù)的標準和質量進行統(tǒng)一包括平臺、工具、數(shù)據(jù)、組織、流程、規(guī)范等一切 與企業(yè)數(shù)據(jù)資產如何用起來所相關的內容數(shù)據(jù)資產:形成統(tǒng)一的數(shù)據(jù)標準產出業(yè)務邏輯和數(shù)據(jù)模型將數(shù)據(jù)變?yōu)閿?shù)據(jù)資產為業(yè)務提供服務數(shù)據(jù)服務:定義服務中心和服務根據(jù)實際需要提供實際業(yè)務服務數(shù) 據(jù) 技 術數(shù) 據(jù) 資 產數(shù) 據(jù) 服 務數(shù)據(jù)集成數(shù)據(jù)存儲數(shù)據(jù)運算其他組件數(shù)據(jù)聯(lián)邦數(shù)據(jù)虛擬化API消息文件其他客戶 洞察 服務位置 洞察 服務營銷 管理 服務終端 洞察 服務金融 征信 服務數(shù)據(jù)開放服務內容客戶 細分產品推薦政企挖潛離網挽留內容偏好網絡優(yōu)化垂直行業(yè)客戶屬性客戶 軌跡客戶 上網區(qū)域 視圖終端

16、 視圖知識 圖譜時間 序列參與 人服務資源賬務營銷事件財務公共挖掘 模型融合模型基礎 模型某電信行業(yè)數(shù)據(jù)中臺的組成數(shù)據(jù)中臺的組成第13頁,共39頁。業(yè)務數(shù)據(jù)化:回歸服務的本質-數(shù)據(jù)重用數(shù)據(jù)存儲和數(shù)據(jù)計算的能力配合微服務等技術,對外提供“數(shù)據(jù)服務的共享”數(shù)據(jù)模型重用和快速搭建:對數(shù)據(jù)知識進行沉淀和持續(xù)的發(fā)展,從而使模型真正成為可重用的組件基于已有組件來支撐數(shù)據(jù)分析的快速響應和創(chuàng)新數(shù)據(jù)業(yè)務化:數(shù)據(jù)中臺是培育業(yè)務創(chuàng)新的土壤通過數(shù)據(jù)中臺管理的大數(shù)據(jù)以及人工智能來發(fā)現(xiàn)規(guī)律,做出對的決策將數(shù)據(jù)資產作用到企業(yè)業(yè)務場景中,包含優(yōu)化現(xiàn)有業(yè)務和創(chuàng)造新的業(yè)務創(chuàng)造業(yè)務(數(shù)據(jù)業(yè)務化)響應業(yè)務(業(yè)務數(shù)據(jù)化)響應運營(數(shù)據(jù)

17、煙筒)為響應當前運營需 求而不得不開展的 一系列的數(shù)據(jù)治理 工作。為將數(shù)據(jù)變成一種 基礎服務,業(yè)務可 以選擇性的使用基 礎服務。將數(shù)據(jù)變成個性化 服務,可以組合產 生新的業(yè)務場景。企業(yè)整體業(yè)務部門IT部門數(shù)據(jù)中臺給業(yè)務快速響應和創(chuàng)新帶 來了價值數(shù)據(jù)中臺戰(zhàn)略給企業(yè)帶來核心競爭力的提升“提質轉型,降本增效”數(shù)據(jù)中臺給IT部門帶來組織職能轉變機 會;數(shù)據(jù)中臺帶給IT部門整體效能的提升; 數(shù)據(jù)中臺提升整體IT部門技術團隊的能 力。企業(yè)對數(shù)據(jù)利用的三個階段:響應運營,響應業(yè)務,創(chuàng)造業(yè)務數(shù)據(jù)中臺給企業(yè)不同部門帶來的價值數(shù)據(jù)中臺的價值第14頁,共39頁。加快 創(chuàng)新改進 運營精準 營銷提升 服務維修分析更好地

18、提供保修 通過快速分析和響應提升 客戶體驗和滿意度根據(jù)客戶需求來支持產品設 計更快識別新的商機,合理布 局監(jiān)控和優(yōu)化流程提升效率通過檢測和分析提升產品 質量理解客戶實現(xiàn)向上和交叉銷 售用質量更佳的營銷數(shù)據(jù) 增加收入處理/分析/挖掘HRERPEPMSCMCRM客戶行為/情感客戶維修投訴設備/傳感器數(shù)據(jù)事件/地理位置客戶信息/購買維修花費/地區(qū)生產線/產品檢測產品/商家/庫存全數(shù)據(jù)數(shù)據(jù)中臺驅動業(yè)務變革第15頁,共39頁。GBase 8a MPP邏輯數(shù)據(jù)倉庫 技術與實踐2第16頁,共39頁。當前數(shù)字商業(yè)的場景越來越復雜,數(shù)據(jù)容量越 來越大,數(shù)據(jù)也越來越分布。數(shù)據(jù)的集成,分 享和組織管理成為重要目標,

19、統(tǒng)一管理是大勢 所趨關系型數(shù)據(jù)庫Hadoop新鮮數(shù)據(jù) 常規(guī)處理歷史數(shù)據(jù) 深度分析市場表現(xiàn)方面,傳統(tǒng)數(shù)據(jù)庫5強依然占據(jù)88.7% 市場份額。表明傳統(tǒng)SQL數(shù)據(jù)庫依然有著很大 的用戶市場盡管傳統(tǒng)SQL數(shù)據(jù)庫和Hadoop有各自獨立的工作 場景,它們之間的數(shù)據(jù)融合和雙向數(shù)據(jù)流通越 來越成為趨勢Gartner預測:數(shù)據(jù)融合產生價值,統(tǒng)一管理是大勢所趨第17頁,共39頁?!斑壿嫈?shù)據(jù)倉庫的數(shù)據(jù)不再局限于結構化數(shù)據(jù),還包括非結構化數(shù)據(jù),如視頻、音頻、文檔等格式。邏輯上是一個大的數(shù)據(jù)倉 庫,底層可以包括各類數(shù)據(jù)源,進行關聯(lián)處理.”Logical Data WarehouseGartner Definition

20、Description:The Logical Data Warehouse (LDW) is a new data management architecture for analytics combining the strengths of traditional repository warehouses with alternative data management and access strategy. The LDW will form a new best practice by the end of 2015.“The LDW is an evolution and au

21、gmentation of DW practices, not a replacement“A repository-only style DW contains a single ontology/taxonomy, whereas in the LDW a semantic layer cancontain many combination of use cases, many business definitions of the same “The LDW permitinformations an IT organization to make a large number of d

22、atasets available for analysisvia query tools and applications.Gartner Hype Cycle for Enterprise Information Management,2012邏輯數(shù)據(jù)倉庫:隨處運行、隨處保存、隨處使用第18頁,共39頁。未來的數(shù)據(jù)管理和集成將會變得更加“關聯(lián)”(Connect),更少 “采集”(Collect)從數(shù)據(jù)被“采集”到應用其價值,這中間有相當長的流程(如上左圖所示),包括描述、整理、集成、分享、治理和實施。無論數(shù)據(jù)是在本地、云端、某個設備上或任何地方,都可以在數(shù)據(jù) 保留在原地的情況下,將它們關聯(lián)

23、起來,而無須采集到特定地方(如上右圖所示),通過關聯(lián)自動發(fā)掘數(shù)據(jù)、透過機器自動意識識 別數(shù)據(jù)中的價值、認定有價值的數(shù)據(jù)、分析數(shù)據(jù)、自動采用適合數(shù) 據(jù)的安全措施、分享數(shù)據(jù)、優(yōu)化數(shù)據(jù)。邏輯數(shù)據(jù)倉庫:重關聯(lián),輕采集第19頁,共39頁。下一代大數(shù)據(jù)平臺的技術架構設計模型對應的是Gartner 2016年推薦的新一代企業(yè)級數(shù)據(jù)平臺邏輯數(shù)據(jù)倉庫數(shù)據(jù)倉庫模式解決的問題核心技術LDW(Logical Dataware House,邏輯數(shù)據(jù)倉庫)多個數(shù)據(jù)源以及多種類型數(shù)據(jù)的綜 合分析場景雙峰(bi-modal)工作模式數(shù)據(jù)虛擬化(Data Virtualization)實現(xiàn) 統(tǒng)一接口,統(tǒng)一訪問數(shù)據(jù)聯(lián)邦(Data

24、 Federation)實現(xiàn)跨數(shù)據(jù) 源數(shù)據(jù)訪問和計算Operational DW(運營數(shù)據(jù)倉庫)實時加載數(shù)據(jù)實時分析數(shù)據(jù)實時指導業(yè)務運營In-Database 大數(shù)據(jù)分析流數(shù)據(jù)分析Context-independent DW(模型無關數(shù)據(jù)倉庫)深度數(shù)據(jù)挖掘復雜機器學習R語言無模式數(shù)據(jù)的深度機器學習文本分析挖掘的計算引擎和算法庫圖分析的計算引擎和算法庫下一代大數(shù)據(jù)平臺的技術架構: Gartner推薦的邏輯數(shù)據(jù)倉庫第20頁,共39頁。非結構化結構化半結構化全類型數(shù)據(jù)融合Multi-Model數(shù)據(jù)虛擬化:統(tǒng)一入口隨處保存a關聯(lián)分析 在線分析批量處理 離線分析流計算圖計算多種數(shù)據(jù)計算模型的融合數(shù)據(jù)聯(lián)邦

25、:算法融合,透明使用隨處使用關聯(lián)分析挖掘/預測機器學習深度學習數(shù)據(jù)集成全數(shù)據(jù)的實時流轉數(shù)據(jù)聯(lián)邦:數(shù)據(jù)流通隨處使用邏輯數(shù)據(jù)倉庫(LDW)核心技術 數(shù)據(jù)虛擬化、數(shù)據(jù)聯(lián)邦第21頁,共39頁。統(tǒng)一接口(SQL & HQL)統(tǒng)一查詢語言跨域訪問統(tǒng)一用戶管理和權限控制統(tǒng)一元數(shù)據(jù)跨引擎優(yōu)化器和計劃器跨引擎關聯(lián)GBase8a MPP (邏輯數(shù)據(jù)倉庫LDW)Data Exchange Layer并行數(shù)據(jù)交換跨引擎數(shù)據(jù)一致性實時同步OracleMPP ClusterHadoop跨引擎分區(qū)鏡像計算擴展跨域和跨引擎的統(tǒng)一調度器開放的插件式引擎適配器數(shù)據(jù)完整性數(shù)據(jù)虛擬化:統(tǒng)一SQL接口透明跨引擎訪問全數(shù)據(jù)類型數(shù)據(jù)融合透

26、明跨域訪問多級數(shù)據(jù)中心數(shù)據(jù)聯(lián)邦:全算法融合打通計算引擎數(shù)據(jù)GBase 8a MPP 架構(LDW):數(shù)據(jù)虛擬化、數(shù)據(jù)聯(lián)邦第22頁,共39頁。數(shù)據(jù)采集數(shù)據(jù)管理數(shù)據(jù)分析挖掘數(shù)據(jù)服務與共享流數(shù)據(jù)靜態(tài)數(shù)據(jù)IoT平臺+實時算法邏輯數(shù)據(jù)倉庫各類統(tǒng)計、分各種數(shù)據(jù)服務接口統(tǒng)一的數(shù)據(jù)視圖(接入、訪問、元數(shù)據(jù)、安全)統(tǒng)一的異構多引擎優(yōu)化、調度層關系模型結構化數(shù)據(jù)集非關系模型半結構、非結構化數(shù)據(jù)集OLTPOLAPKV、ML、Graph、Stream、FullTex統(tǒng)一的數(shù)據(jù)實時流轉層析、挖掘、預 測算法下一代融合計算平臺解決的企業(yè)核心問題: 數(shù)據(jù)融合與流通第23頁,共39頁。企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應用和大數(shù)據(jù)應用JD

27、BC、ODBCJDBC、ODBCJDBC/ODBC、Thrift、Protocol Buffer 開發(fā)語言:Java、 Scala、 Python、 go、C/C+、 SQLiaSQL on Hadoop:HBigSQL、Clouder計算引擎:MR、Tez、Spve、HAWQ、Phoenix、TajoImpala、Presto、Sharkark;資源管理:YARN、MESOSDFS:HDFS、CEPH分析型數(shù)據(jù)庫事務型數(shù)據(jù)庫數(shù)據(jù)接入層、安全管理、運營管理多系統(tǒng)可用,但是不混搭1.0:X 數(shù)據(jù)源多,管理復雜X 數(shù)據(jù)不流通X 無法集成數(shù)據(jù)好用企業(yè)用戶的傳統(tǒng)數(shù)據(jù)庫應用和大數(shù)據(jù)應用JDBC、ODBC

28、、ADO.NET、CAPI、RESTful APILDWHadoop生態(tài)型數(shù)據(jù)庫分析事務型數(shù)據(jù)庫Spark 棧安全管理、運營管理融合架構 (LDW 統(tǒng)一層):數(shù)據(jù)統(tǒng)一管理,統(tǒng)一訪問數(shù)據(jù)易流通數(shù)據(jù)易集成解決了好用的問題,提升混搭價值大數(shù)據(jù)下一代架構:從“混搭架構” 到 “融合架構”第24頁,共39頁。數(shù)據(jù)平臺層未來由混搭架構 向融合架構演進,形成多種 引擎的統(tǒng)一管理和優(yōu)化,簡 化業(yè)務流程,方便集成其他 計算引擎。企業(yè)級大數(shù)據(jù)架構未來演進: 數(shù)據(jù)融合、算法融合、數(shù)據(jù)流通第25頁,共39頁。全種類數(shù)據(jù)處理平臺能力融合:進一步融合非結構化數(shù) 據(jù)處理平臺能力,實現(xiàn)全種類數(shù)據(jù)處理能力融合。MPP 與Had

29、oop集群間能力融合:實現(xiàn)MPP深入分析 能力與Hadoop的批量數(shù)據(jù)處理和數(shù)據(jù)挖掘能力融合。同種MPP 集群間融合(虛擬集群):實現(xiàn)跨多個MPP 集群內的數(shù)據(jù)模型融合,整體作為一個邏輯一體化的集 群使用。4MPP + Hadoop + oracle + Nosql3MPP + Hadoop + Oracle2MPP + Hadoop1MPP + MPP分析平臺與實時交易數(shù)據(jù)庫能力融合:實現(xiàn)MPP、 Hadoop與現(xiàn)有傳統(tǒng)數(shù)據(jù)庫Oracle的融合,實現(xiàn)實時性和 事務處理能力。GBase 8a MPP 架構(LDW)實現(xiàn)各階層的大數(shù)據(jù)處理能力融合第26頁,共39頁。融合 結構化+半結構化+非結構

30、化解決全類型數(shù)據(jù)存儲需求融合 實時處理+交互式處理+批量處理 解決多種場景的計算需求融合 OldSQLNewSQL+NoSQL解決數(shù)據(jù)關聯(lián)查詢和交換的需求融合 熱數(shù)據(jù)溫數(shù)據(jù)冷數(shù)據(jù)解決統(tǒng)一運維管理的需求融合 平臺Unified Platform降低用戶構建大數(shù)據(jù)系統(tǒng)過程中的決策、建模、運維、開發(fā)成本GBase 8a MPP 架構(LDW)快速實現(xiàn)大數(shù)據(jù)系統(tǒng)落地第27頁,共39頁。tmp_2tmp_1t1_mppGBase 8a MPP(LDW)通過跨引擎調度器實現(xiàn) 數(shù)據(jù)在引擎間的數(shù)據(jù)運算,例如:Select , t1.opdate, t2.url from t1_mpp as t1, t2_hi

31、ve as t2 where t1.id=t2.key and t1.city=北京 and extracts(t2.url, gbase) 0 and contains (t1.weichat, 南大通用)0 order by t1.opdate limit 10;GBase 8a MPPClusterJoinCross Engine Optimizer & PlannerParallel SchedulerMega SQL EngineHive On HBaset2_hiveSQLMPP 集群Hadoop 集群數(shù)據(jù)融合案例:透明的跨引擎SQL關聯(lián)與優(yōu)化第28頁,共39頁。GBase 8a

32、MPP(LDW)通過實現(xiàn)跨引 擎的數(shù)據(jù)傳輸層和跨引擎的調度器,實 現(xiàn)了跨引擎間的數(shù)據(jù)流通,例如:t1: 8a MPP 表 h1、h2 : Hive表 Insert into t1select h1, h2 where andparse_url(url,HOST) = ;Parallel SchedulerMega SQL EngineCross Engine Optimizer & PlannerJoinh1h2t1Hive On SparkJoinh1h2GBase 8a MPPClustert1數(shù)據(jù)融合案例:跨引擎數(shù)據(jù)交換第29頁,共39頁。GBase 8a MPPGBase 8tOrac

33、leHiveTable/ViewHDFSFileTableGBase 8a MPPGBase 8tOracleHiveHDFSFileSpark MLLibML FrameInputOutputOperationException HandlerNaveBayesK-meansDecisionTreeOtherStored ProcedureCreate ModelAdd algorithmAdd train_settingUser: Call Stored ProcedureExpert: Extend AlgorithmDBA: MaintainStored ProcedureAlgori

34、thm Family NaiveBayes.Train NaiveBayes.Evaluate NaiveBayes.Predict12ML Algorithm34Spark UDF5Spark MLLib:以Spark MLLib作為基礎,獲得豐富的基礎操作支撐,以及分布式執(zhí)行的性能。ML Algorithm:實現(xiàn)樸素貝葉斯、K-均值、決策樹等多種流行機器學習算法,專家用戶也可以很容易的實現(xiàn)新算法。ML Frame:自主研發(fā)的機器學習框架,為算法提供上下文管理、配置、異常處理等多種基礎能力,抽象輸入輸出接口,可 以把不同關系庫的表、HDFS文件系統(tǒng)作為算法的數(shù)據(jù)源和目的。Spark UDF:

35、框架、算法等封裝成Spark的UDF,可以在Spark上直接執(zhí)行。Stored Procedure:以存儲過程的方式調用算法執(zhí)行,簡化用戶使用機器學習的復雜度。算法融合案例:可擴展的計算框架,融合SQL與ML算法第30頁,共39頁??蛻舭咐彻灿脩簦ǘ喾N異構引擎的統(tǒng)一管理)應用服務數(shù)據(jù)服務基礎設施計算資源池存儲資源池在線分析庫(GBase 8a MPP Cluster)數(shù)據(jù)加速庫(GBase 8m)離線分析庫(GBase HD)互聯(lián)網采集文件網絡資源池高性能內存庫人口庫數(shù)據(jù)匯集庫統(tǒng)一數(shù)據(jù)管理平臺(GBase 8a MPP LDW)數(shù)據(jù)平臺展示門戶交換橋接數(shù)據(jù)共享交換系統(tǒng)前置交換交換傳輸交換管

36、理互聯(lián)網數(shù)據(jù)采集系統(tǒng)關鍵字提取前置加工庫(GBase 8t)案件庫音視頻文件網絡輿情數(shù)據(jù)共享交換系統(tǒng) 主題查詢大數(shù)據(jù)智能分析系統(tǒng)(GBase BI)比對碰撞關系挖掘統(tǒng)計報表數(shù)據(jù)資源管理系統(tǒng)數(shù)據(jù)資產管理數(shù)據(jù)血緣管理 數(shù)據(jù)生命周期管理標簽體系管理數(shù)據(jù)監(jiān)控管理數(shù)據(jù)質量管理數(shù)據(jù)共享目錄數(shù)據(jù)公眾查詢數(shù)據(jù)交換服務采集網站配置采集規(guī)則配置采集任務管理第31頁,共39頁。LDW迎接新的數(shù)據(jù)處理挑戰(zhàn):從“小數(shù)據(jù) + 簡單分析” 到 “big data + big compute”從“事后分析” 到 “事中 、事前分析”能力從“單一、孤立” 到 “全數(shù)據(jù)、全視角”的洞察能力LDW對新一代大數(shù)據(jù)、云計算平臺需求:云

37、計算2.0 是數(shù)據(jù)的虛擬化 : 數(shù)據(jù)資源 數(shù)據(jù)資產 數(shù)據(jù)即服務大數(shù)據(jù)處理的需求:數(shù)據(jù)融合、算法融合、數(shù)據(jù)流通LDW進入云化2.0時代: 實現(xiàn)DaaS數(shù)據(jù)即服務 + SaaS軟件即服務能力 :云1.0: 計算機資源的“軟件定義”,實現(xiàn)了硬件、系統(tǒng)資源的虛擬化、資源化,完成了 IaaS 時代云2.0: 數(shù)據(jù)資源的“軟件定義”,通過數(shù)據(jù)的虛擬化、資源化,實現(xiàn)數(shù)據(jù)即服務(DaaS), 和應用的敏捷微服務化。LDW 迎接和面對新的技術和業(yè)務挑戰(zhàn)第32頁,共39頁。應用驅動模式數(shù)據(jù)驅動模式支撐業(yè)務驅動、變革業(yè)務成本中心盈利中心Google:人類第一次幾乎可以不受技術限制的采集、存儲、分析、使用數(shù)據(jù)習近平:

38、未來幾十年,新一輪科技革命和產業(yè)變革將同人類社會發(fā)展形成歷史性交匯,工程科技進步和創(chuàng)新將成為推動人類社會發(fā)展的重要引擎。信息技術成為率先滲透到經濟社會生活各領域的先導技術,將促進以物質生產、物質服務為主的經 濟發(fā)展模式向以信息生產、信息服務為主的經濟發(fā)展模式轉變,世界正在進入以信息產業(yè)為主導的新經濟發(fā)展時期。(在2014年國際工程科技大會上的主旨演講)大趨勢:IT在企業(yè)中的角色正在發(fā)生顛覆性轉變,從工具到驅動力第33頁,共39頁。使命:專注于數(shù)據(jù)庫軟件產品和服務,致力于成為用戶最信賴的數(shù)據(jù)庫產品供應商公司: 成立于2004年,總部在天津人員規(guī)模: 500 人, 其中300 技術+研發(fā)優(yōu)勢: 國內領先、世界一流的數(shù)據(jù)庫和大數(shù)據(jù)平臺產品,專業(yè)的技術服務能力市場: 黨政軍、大型央企、金融、電信、安全、等核心行業(yè)客戶: 2000+ 個高端活躍客戶,滿意度高戰(zhàn)略: 國內領先、世界一流、自主創(chuàng)新GBASE十六年只做一件事:數(shù)據(jù)庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論