![基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第1頁](http://file4.renrendoc.com/view7/M01/3E/28/wKhkGWcJFJaAD7VAAAJFN0K4mYs519.jpg)
![基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第2頁](http://file4.renrendoc.com/view7/M01/3E/28/wKhkGWcJFJaAD7VAAAJFN0K4mYs5192.jpg)
![基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第3頁](http://file4.renrendoc.com/view7/M01/3E/28/wKhkGWcJFJaAD7VAAAJFN0K4mYs5193.jpg)
![基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第4頁](http://file4.renrendoc.com/view7/M01/3E/28/wKhkGWcJFJaAD7VAAAJFN0K4mYs5194.jpg)
![基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第5頁](http://file4.renrendoc.com/view7/M01/3E/28/wKhkGWcJFJaAD7VAAAJFN0K4mYs5195.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行2023年目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實(shí)踐整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行什么是數(shù)據(jù)湖?AWS的定義:Adatalakeisacentralizedrepositorythatallowsyoutostoreallyourstructuredandunstructureddataatanyscale.Youcanstoreyourdataas-is,withouthavingtofirststructurethedata,andrundifferenttypesofanalytics—fromdashboardsandvisualizationstobigdataprocessing,real-timeanalytics,andmachinelearningtoguidebetterdecisions.數(shù)據(jù)湖是一個(gè)集中式存儲庫,允許您以仸意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),幵運(yùn)行不同類型的分析–從控制面板和可視化到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以指導(dǎo)做出更好的決策。什么是數(shù)據(jù)倉庫?AWS的定義:Adatawarehouseisacentralrepositoryofinformationthatcanbeanalyzedtomakemoreinformeddecisions.Dataflowsintoadatawarehousefromtransactionalsystems,relationaldatabases,andothersources,typicallyonaregularcadence.Businessanalysts,dataengineers,datascientists,anddecisionmakersaccessthedatathroughbusinessintelligence(BI)tools,SQLclients,andotheranalyticsapplications.Dataandanalyticshavebecomeindispensabletobusinessestostaycompetitive.Businessusersrelyonreports,dashboards,andanalyticstoolstoextractinsightsfromtheirdata,monitorbusinessperformance,andsupportdecisionmaking.Datawarehousespowerthesereports,dashboards,andanalyticstoolsbystoringdataefficientlytominimizetheinputandoutput(I/O)ofdataanddeliverqueryresultsquicklytohundredsandthousandsofusersconcurrently.數(shù)據(jù)倉庫是信息(對其進(jìn)行分析可做出更明智的決策)的中央存儲庫。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過商業(yè)智能(BI)工具、SQL客戶端和其他分析應(yīng)用程序訪問數(shù)據(jù)。數(shù)據(jù)和分析已然成為各大企業(yè)保持競爭力所不可或缺的部分。企業(yè)用戶依靠報(bào)告、控制面板和分析工具從其數(shù)據(jù)中獲得洞察力、監(jiān)控企業(yè)績效以及更明智地決策。數(shù)據(jù)倉庫通過高效地存儲數(shù)據(jù)以便最大限度地減少數(shù)據(jù)輸入和輸出(I/O),幵快速地同時(shí)向成千上萬的用戶提供查詢結(jié)果,為這些報(bào)告、控制面板和分析工具由數(shù)據(jù)倉庫提供支持。數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與協(xié)作關(guān)系?特性數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)來自事務(wù)系統(tǒng),運(yùn)營數(shù)據(jù)庫和業(yè)務(wù)線應(yīng)用程序的非關(guān)系數(shù)據(jù)所有數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化Schema通常在數(shù)據(jù)倉庫實(shí)施之前設(shè)計(jì),但是也可以在分析時(shí)編寫(寫入型Schema或讀取型Schema)寫入在分析時(shí)(讀取型Schema)性價(jià)比使用本地存儲獲得最快的查詢結(jié)果更快地獲得查詢結(jié)果,存儲成本低,計(jì)算和存儲分離數(shù)據(jù)質(zhì)量可作為重要事實(shí)依據(jù)的高度監(jiān)管數(shù)據(jù)仸何可以或無法進(jìn)行監(jiān)管的數(shù)據(jù)(例如原始數(shù)據(jù))用戶業(yè)務(wù)分析師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)開發(fā)人員業(yè)務(wù)分析師(使用監(jiān)管數(shù)據(jù))、數(shù)據(jù)科學(xué)家、數(shù)據(jù)開發(fā)人員、數(shù)據(jù)工程師和數(shù)據(jù)架構(gòu)師分析批處理報(bào)告、BI和可視化機(jī)器學(xué)習(xí)、探索性分析、數(shù)據(jù)發(fā)現(xiàn)、流處理、運(yùn)營分析、大數(shù)據(jù)和特征分析什么是數(shù)據(jù)中臺?數(shù)據(jù)應(yīng)用(前臺)數(shù)據(jù)中臺(交換、開發(fā)、治理、服務(wù))于基礎(chǔ)設(shè)施(后臺)數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機(jī)制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)幵服務(wù)于業(yè)務(wù)的機(jī)制。整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行整理制作:郎豐利1519制作時(shí)間:2023年睿利而行數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺能否融合?數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺能否融合?數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)中臺原始數(shù)據(jù)與格式,主要負(fù)責(zé)集中式數(shù)據(jù)存儲GoldenData,解析后的高價(jià)值數(shù)據(jù),提供存儲、加工、分析能力關(guān)注數(shù)據(jù)價(jià)值、數(shù)據(jù)業(yè)務(wù)、組織架構(gòu)、效能等目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實(shí)踐數(shù)據(jù)平臺架構(gòu)的演進(jìn)第一代數(shù)倉平臺第二代兩層的湖倉一體的平臺第三代LakeHouse湖倉一體的平臺Snowflake——湖倉一體最成功的商業(yè)案例HOT!Snowflake設(shè)計(jì)思想解讀Shared-Nothing
架構(gòu)->
Shared-Data
架構(gòu)存儲計(jì)算分離:統(tǒng)一存儲、彈性計(jì)算數(shù)倉即服務(wù):SaaS化體驗(yàn),共享存儲基礎(chǔ)設(shè)施,計(jì)算多租戶持續(xù)高可用:在線升級,失敗容錯(cuò)結(jié)構(gòu)化延伸到半結(jié)構(gòu)化數(shù)據(jù)的處理支持Shared-nothing架構(gòu)(優(yōu)勢)Table
被跨節(jié)點(diǎn)進(jìn)行水平分區(qū)每個(gè)節(jié)點(diǎn)有自己的本地存儲每個(gè)節(jié)點(diǎn)只處理自己本地表分區(qū)的數(shù)據(jù)清晰簡潔的處理機(jī)制對于“星型”模型有良好的擴(kuò)展性數(shù)倉領(lǐng)域的典型架構(gòu)NetworkCPUMemoryDiskWorkNodeShared-nothing架構(gòu)(劣勢)耦合了計(jì)算與存儲資源彈性集群擴(kuò)縮容需要重“分布”很多數(shù)據(jù)沒法簡單卸載不用的計(jì)算資源受限的可用性角色變化(失敗、升級)
影響性能幵可能導(dǎo)致服務(wù)整體不可用同構(gòu)的資源VS
異構(gòu)的負(fù)載批量加載、報(bào)表、探索與分析NetworkCPUMemoryDisk第三代真正湖倉一體的架構(gòu)——LakeHouse可靠性數(shù)據(jù)新鮮度高級分析能力的支持?jǐn)?shù)據(jù)歸屬的成本LakeHouse的核心設(shè)計(jì)要素可靠的湖上數(shù)據(jù)管理支持機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)高性能的SQL引擎T3出行湖倉一體的架構(gòu)DataLakeStorageDataLakeManagerCacheAd-HocCacheOLAPCacheWarehouseCacheMLMetadataInfrastructureManagerSecurityQueryManagerAPIServiceAuthentication&accesscontrol所有的數(shù)據(jù)存于一處虧補(bǔ)依賴獨(dú)立擴(kuò)展的存儲與計(jì)算即開即用,隨時(shí)關(guān)閉的“計(jì)算”每個(gè)集群(理論上)可以訪問全部數(shù)據(jù)目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實(shí)踐企業(yè)數(shù)據(jù)的幾個(gè)應(yīng)用場景有銀彈吒?HybridTransaction/AnalyticsProcessing (HTAP)數(shù)據(jù)來源于業(yè)務(wù)系統(tǒng)(TP)需要事務(wù)機(jī)制保證ACID需要保證TP和AP的一致性(數(shù)據(jù)、模
型,大量同步)適合模型簡單,簡單分析場景,以TP
模型解決AP的問題一個(gè)系統(tǒng),兩種查詢場景(分
析、服務(wù))無事務(wù)開銷(鎖、同步)行為數(shù)據(jù)、日志數(shù)據(jù),比TP高數(shù)
量級,高嚇吐寫入以數(shù)倉模型(抽象、復(fù)用、標(biāo)準(zhǔn))解決數(shù)據(jù)服務(wù)的問題Transaction隨機(jī)讀寫、支持事務(wù)ACID、鎖、面向DBAServing高幵發(fā)、查詢簡單、快速,面向在線應(yīng)用(toC)大規(guī)模數(shù)據(jù)掃描、過濾、匯總,語義層,分布式,列式存儲,面向分析師AnalyticsHybridServing/AnalyticsProcessing(HSAP)數(shù)據(jù)中臺涵蓋的主要數(shù)據(jù)場景Serving(應(yīng)用)OLAP數(shù)據(jù)中臺T3數(shù)據(jù)中臺的探索:HSAP的理念HSAP:HybridServing& AnalyticalProcessing數(shù)據(jù)報(bào)告(Analytics)數(shù)據(jù)看板(S&A)在線應(yīng)用(Serving)數(shù)據(jù)應(yīng)用前臺OLAPServing湖倉一體的后臺架構(gòu)數(shù)據(jù)中臺對HSAP有怎樣的期望?豐富生態(tài)兼容主流的大數(shù)據(jù)計(jì)算框架兼容主流的大數(shù)據(jù)查詢分析框架分析服務(wù)一體化Point
Query(用于API
服務(wù),類Hbase、Redis場景)OLAP
Query(PB級復(fù)雜查詢,
秒級/亞秒級交虧式分析,類
Presto、Impala、Druid、ClickHouse、Kylin場景)支持流批讀寫的設(shè)計(jì)支持實(shí)時(shí)寫入、實(shí)時(shí)更新、寫入即可查Flink、Spark超高導(dǎo)入性能計(jì)算存儲分離于原生架構(gòu),彈性擴(kuò)縮容,成本更低兼容傳統(tǒng)的Hadoop生態(tài)統(tǒng)一存儲至數(shù)據(jù)服務(wù)誰是開源界最適合構(gòu)建HSAP的核心框架?Hudi:HadoopUpsertsDeletesand
Incrementals管理DFS/于上超大規(guī)模(上百PB)分析數(shù)據(jù)集支持揑入、更新、刪除的增量數(shù)據(jù)湖處理框架2019年1月加入Apache孵化器,2020年5月畢業(yè)為TLP對所有于服務(wù)(AWS/Tencent
Cloud/Aliyun)都開箱即用已在Uber線上穩(wěn)定運(yùn)行近4年事務(wù)性(ACID)存儲管理時(shí)間旅行增量處理HSAP:分析服務(wù)一體化之于HudiServingOLAP兼容Hive支持主流查詢分析引擎KylinSpark
SQLPresto準(zhǔn)實(shí)時(shí)的upsert支持支持揑件化的主鍵索引Javanative
client:寫(已支持)讀(待支持)HSAP:支持流批讀寫的設(shè)計(jì)之于Hudi批量數(shù)據(jù)流式數(shù)據(jù)全量DeltaStreamer微批流式批/微批流式HSAP:計(jì)算與存儲分離之于HudiPluggableIndex(Bloom/HBase)PluggableDataformat(Avro,Parquet)TimelineMetadataHivePrestoSpark寫入讀取存儲類型查詢/視圖Impala化讀優(yōu)增量快照COWMORPluggableStorage(HDFS,OSS,S3)JavaFlinkSparkPython存儲計(jì)算HSAP:開源生態(tài)之于Hudi湖倉一體的技術(shù)架構(gòu)圖AliyunOSSYARN存儲格式存儲層數(shù)據(jù)湖存儲計(jì)算層編排加速資源管理多元計(jì)算數(shù)據(jù)中臺整體架構(gòu)圖湖倉一體的技術(shù)底座數(shù)據(jù)匯聚異構(gòu)網(wǎng)絡(luò)異構(gòu)數(shù)據(jù)源離線同步實(shí)時(shí)接入可視化配置…數(shù)據(jù)開發(fā)離線開發(fā)實(shí)時(shí)開發(fā)算法開發(fā)智能調(diào)度智能運(yùn)維監(jiān)控告警環(huán)境隔離…
數(shù) 數(shù)據(jù) 據(jù)運(yùn) 安營 全體 管系 理數(shù)據(jù)應(yīng)用數(shù)據(jù)分析數(shù)據(jù)運(yùn)營可視化BI數(shù)據(jù)資產(chǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家裝工程簡易協(xié)議條款
- 機(jī)械設(shè)備進(jìn)口物流代理協(xié)議
- 劇院改造貸款協(xié)議
- 廣告牌運(yùn)輸與安裝合同
- 服裝物流服務(wù)協(xié)議模板
- 展覽館混凝土配送承包協(xié)議
- 國際體育用品居間協(xié)議
- 咖啡館裝修合作協(xié)議
- 爬升模板滑膜施工方案
- 便利店水電改造合同
- 閱讀理解特訓(xùn)卷-英語四年級上冊譯林版三起含答案
- 國庫集中支付培訓(xùn)班資料-國庫集中支付制度及業(yè)務(wù)操作教學(xué)課件
- 屋面及防水工程施工(第二版)PPT完整全套教學(xué)課件
- 詩詞寫作入門課件
- 2023年上海青浦區(qū)區(qū)管企業(yè)統(tǒng)一招考聘用筆試題庫含答案解析
- 2023年高一物理期末考試卷(人教版)
- 2023版押品考試題庫必考點(diǎn)含答案
- 空氣能熱泵安裝示意圖
- 建筑工程施工質(zhì)量驗(yàn)收規(guī)范檢驗(yàn)批填寫全套表格示范填寫與說明
- 最新《工會基礎(chǔ)知識》試題庫及答案1000題【完美打印版】
- 辦公家具項(xiàng)目實(shí)施方案、供貨方案
評論
0/150
提交評論