版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
r構(gòu)建企業(yè)級(jí)湖倉(cāng)架構(gòu)好友好友剛剛sparksparkspak離線同步lceberg66老板老板老板老板嗨Steven,你可以快速幫我統(tǒng)計(jì)一下昨天平臺(tái)上的熱銷商品,以及各品類GMV和引導(dǎo)IPV嗎?老板很棒的報(bào)表,這個(gè)報(bào)表可以每天更新嗎?spak離線同步Iceberg老板這個(gè)報(bào)表可以實(shí)時(shí)更新嗎?kk但現(xiàn)實(shí)卻很復(fù)雜老板這個(gè)報(bào)表可以實(shí)時(shí)更新嗎?老板兩套引擎,兩套代碼,統(tǒng)計(jì)口徑不一致!老板可以再加上環(huán)比同比嗎?老板離線同步888888實(shí)時(shí)同步兩套存儲(chǔ)、兩套計(jì)算,復(fù)用,數(shù)據(jù)不一致O開(kāi)發(fā)運(yùn)維兩套Pipelineo增量計(jì)算,一套架構(gòu)流計(jì)算成本高,批計(jì)算回刷代碼無(wú)法復(fù)用6MaterializedTable業(yè)務(wù)時(shí)效性←業(yè)務(wù)時(shí)效性←-ONorders.customer_id=custome調(diào)度周期/天(手工配置);SELECT*ONorders.customer_id=customers.id;SELECT*ONorders.customer_ONorders.customer_id=customers.id;一鍵把數(shù)據(jù)新鮮度從1min切換到1hAirflow…AirflowAirflow效率低重復(fù)開(kāi)發(fā)重復(fù)存儲(chǔ)業(yè)務(wù)層批作業(yè)流作業(yè)批量讀取流式消費(fèi)攝入層DataxCanal批計(jì)算流計(jì)算成本低批讀(File)流讀(ChangeLog)攝入層存儲(chǔ)層MaterializedTable幫你智能選擇性價(jià)比最高的執(zhí)行模式小時(shí)級(jí)分鐘級(jí)秒級(jí)全量數(shù)據(jù)增量數(shù)據(jù)增量數(shù)據(jù)周期調(diào)度周期調(diào)度持續(xù)計(jì)算規(guī)劃中低中高adwd_logdws_oaJobID:5ee?e5ede?27fdfafbeb63f442b8c964FlinkSQL>SET'erval'-'2S';FlinkSQL>INSERTINTOpaimon.dw.dw>FORSYSTEMLTIMEASOFdata>ONdatagen.id=user_log[INF?]SubmittingSQLupdateJobID:c44d41c4482fce9a656f2929b?fe894d[INF?]Executesta謝謝大家!示例&測(cè)評(píng)背景介紹為什么要做增量計(jì)算?為什么基于Flink做增量計(jì)算?全量計(jì)算:·一次執(zhí)行完成處理00:00:00 WHERETO_DATE(time)=WHERETO_DATE(time)=2024-11-11'成本批計(jì)算批計(jì)算·時(shí)效性低·提高時(shí)效性會(huì)導(dǎo)致成本·時(shí)效性高·成本較高成本·無(wú)需長(zhǎng)期占用資源·面向批量數(shù)據(jù)進(jìn)行優(yōu)化·不依賴作業(yè)內(nèi)建的狀態(tài)和破線風(fēng)險(xiǎn)·低成本的增量回刷訂正orders數(shù)據(jù)時(shí)效性可修改數(shù)據(jù)時(shí)效性可修改聲明式ETL性能自適應(yīng)優(yōu)化的能力r 工作介紹工作進(jìn)展設(shè)計(jì)思路支持的查詢和場(chǎng)景功能開(kāi)發(fā)完成與MT的整合Beta版本待支持的查詢和場(chǎng)景執(zhí)行增量作業(yè)記錄執(zhí)行進(jìn)度執(zhí)行增量作業(yè)寫新增寫變更寫新增寫變更讀增量讀增量讀全量全增量一體的存儲(chǔ)全增量一體的存儲(chǔ)恢復(fù)執(zhí)行進(jìn)度ABAAABB控制消費(fèi)的數(shù)據(jù)量級(jí)rBBBBBBABAA確定位點(diǎn)AAB個(gè)恢復(fù)位點(diǎn)示例&測(cè)評(píng)未來(lái)規(guī)劃示例初初次執(zhí)行拓?fù)?全量)ConstraintEnforcer[示例Duration后后續(xù)執(zhí)行拓?fù)?增量)執(zhí)行耗時(shí)執(zhí)行耗時(shí)執(zhí)行耗時(shí)執(zhí)行耗時(shí)10min增量■5min10min增量 ·對(duì)應(yīng)計(jì)算成本,不包括存儲(chǔ)成本未來(lái)規(guī)劃rr提升流批一體場(chǎng)景開(kāi)發(fā)效率開(kāi)發(fā)語(yǔ)法校驗(yàn)/調(diào)試(事前)/調(diào)試(事中)在不同引擎上常用的數(shù)據(jù)表坐標(biāo),UDF,Fu做到完全一致t返回結(jié)果本地執(zhí)行,快速驗(yàn)證業(yè)務(wù)邏輯本地執(zhí)行,快速驗(yàn)證業(yè)務(wù)邏輯典型流批不一致案例和解決思路常見(jiàn)的影響計(jì)算準(zhǔn)確性場(chǎng)景狀態(tài)過(guò)期CDC不完整狀態(tài)過(guò)期 updatestatet·全局的TTL設(shè)置為24H去重去重1.狀態(tài)過(guò)期時(shí)間和業(yè)務(wù)邏輯不匹配訂單狀態(tài)變更超過(guò)了24H調(diào)整狀態(tài)TTL,確保和業(yè)務(wù)流程最大更新周期一致訂單狀態(tài)Join不上,結(jié)果狀態(tài)過(guò)期狀態(tài)過(guò)期2.算子未能正常傳遞更新?tīng)顟B(tài)新數(shù)據(jù)并不會(huì)產(chǎn)游*Rank邏輯變更為只保留第一條數(shù)據(jù)果重新下發(fā)(即使結(jié)果未發(fā)生變化)訂單明細(xì)去重去重Join未接受到上游+1(key1,value1)-U(key1,value1)+U(key1,value2)-U(+1(key1,value1)+U(key1,value1)+U(ke+1(key1,value1)2.非確定計(jì)算產(chǎn)生不完整CDC-U(key1,value1,time2)-U(key1,value2,time4)果只和處理時(shí)相果只和處理時(shí)相果可能不一樣2.非確定計(jì)算產(chǎn)生不完整CDC不完整CDC帶來(lái)的影響CDC不完整CDC不完整set'table.optimizernon-deterministic-update.strategy'='TRY_RESOLVECDC不完整+----------------------------->elsepower(10,sum(log(10,val1)Calc(select=[key1,key2,key3,CASE(Sf3=0),+-GroupAggregate(groupBy=[key1,key2,key3],select=[key1,key2,key3,MIN_RSf3,SUM_RETRACT(Sf4)ASSf+-Exchange(distribution=[hash[key1,+-Calc(select=[key1,key2,key3,val1,LOG(10,+-TableSourcescan(table=[default_catalog,default_database,table1l,fielCDC不完整-D(key1,type3,0,-In值破壞了中間狀態(tài)聚合計(jì)算前應(yīng)該賦予默認(rèn)值,避免產(chǎn)生NAN/Infinity不會(huì)導(dǎo)致最終結(jié)果錯(cuò)誤-U(id1,status1,1)--set'table.exec.sink.upsert-materia生成SinkUpsertMaterializer節(jié)點(diǎn)還原順序-U(id1,status1,1)通過(guò)SQLAdvice可以幫助我們提前發(fā)現(xiàn)潛在風(fēng)險(xiǎn),常見(jiàn)的性能優(yōu)化手段減少Reguarjoin傾斜優(yōu)化LookupJoin優(yōu)化RegularJoin改寫為PartialUpdate(狀態(tài)緩存轉(zhuǎn)移到外部存儲(chǔ))多流Join星型模型->雪花模型(減少狀態(tài)緩存大小)留,狀態(tài)中保留全字段joinkey字段,狀態(tài)量相對(duì)較小更字段Rank/Agg狀態(tài)優(yōu)化(轉(zhuǎn)移至外部存儲(chǔ))完整CDC無(wú)狀態(tài)無(wú)狀態(tài)主鍵表無(wú)狀態(tài)主鍵表Rank/Agg狀態(tài)優(yōu)化(減少特殊場(chǎng)景下的狀態(tài))持續(xù)膨脹數(shù)據(jù)傾斜當(dāng)Source2維度較少時(shí),容易出現(xiàn)傾斜基于主鍵hash,確保數(shù)據(jù)有序,hash均衡適用將小量的維度表broadcastLookupJoin“數(shù)據(jù)傾斜”(湖表場(chǎng)景下)每個(gè)每個(gè)subtaskbucket數(shù)據(jù)場(chǎng)景的數(shù)據(jù)傾斜(兩階段聚合)set'table.optimizer.agg-phase-st預(yù)聚合,避免下游的熱點(diǎn)導(dǎo)致某一節(jié)點(diǎn)熱點(diǎn)預(yù)聚合,避免下游的熱點(diǎn)訂單信息·主鍵為訂單ID訂單信息 訂單寬表買家信息回刷數(shù)據(jù)產(chǎn)生變更 訂單寬表訂單寬表全鏈路無(wú)狀態(tài)過(guò)站信息過(guò)站信息湖倉(cāng)升級(jí):Uniflow構(gòu)建流批一體實(shí)時(shí)湖倉(cāng)趨勢(shì)洞察趨勢(shì)洞察引入數(shù)倉(cāng)數(shù)據(jù)湖引領(lǐng)原生湖倉(cāng)實(shí)時(shí)化AI化企Structured,Semi-StructuredandUnstructuredDExternalData核心洞察: ·湖倉(cāng)架構(gòu)(Lakehouse),業(yè)界及企業(yè)認(rèn)可,能力 ·湖倉(cāng)架構(gòu)(Lakehouse)開(kāi)源開(kāi)放,兼容流能力 阿里云騰訊云為云亞信科技新華三亞信科技數(shù)新網(wǎng)絡(luò)柏瑞數(shù)據(jù)圍繞湖倉(cāng)架構(gòu)(Lakehouse)元數(shù)據(jù)及數(shù)據(jù)Source:IDC,IDCMarketScape:中國(guó)實(shí)時(shí)湖倉(cāng)市場(chǎng)2024年廠商評(píng)估,#CHC51768224成本6②流讀流寫方案原理 核心優(yōu)勢(shì)④批讀批寫調(diào)度工作流等能力開(kāi)發(fā)測(cè)試開(kāi)發(fā)生產(chǎn)隔離動(dòng)態(tài)CEP流/批作業(yè)臨時(shí)查詢數(shù)據(jù)查詢數(shù)據(jù)攝取作業(yè)運(yùn)維調(diào)度智能調(diào)優(yōu)權(quán)限管理資源隊(duì)列狀態(tài)管理6重復(fù)開(kāi)發(fā)重復(fù)存儲(chǔ)業(yè)務(wù)層計(jì)算層批作業(yè)批計(jì)算批量讀取業(yè)務(wù)層流作業(yè)業(yè)務(wù)層流作業(yè)流計(jì)算批計(jì)算流計(jì)算流計(jì)算流式消費(fèi)批讀(File)流讀(ChangeLog)一套存儲(chǔ)存儲(chǔ)層攝入層離線同步實(shí)時(shí)同步存儲(chǔ)層攝入層數(shù)據(jù)攝取數(shù)據(jù)存儲(chǔ)數(shù)據(jù)計(jì)算 計(jì)算引擎數(shù)據(jù)攝取開(kāi)發(fā)及運(yùn)行計(jì)算引擎數(shù)據(jù)攝取開(kāi)發(fā)開(kāi)發(fā)流批作業(yè)不區(qū)分#結(jié)果表對(duì)接DLF2.0統(tǒng)一鑒權(quán),無(wú)需用戶名密碼perties.dlf.catalog.instance.idperties.dlf.catalog.instance.id8ngrr整庫(kù)同步6處理處理 ·ApachePaimon內(nèi)置Sink,屏蔽復(fù)雜性 自自自_she-100101環(huán)境測(cè)試 ·兩億條:3臺(tái)ecs.g6.2xlarge(24 Nexmark(一億條記錄)阿里云流計(jì)算引擎FlinkEngine是ApacheFlink性能的8.4倍各各個(gè)Query的運(yùn)行時(shí)間(越低越好)□阿里云流計(jì)算FlinkEngine引擎運(yùn)行總時(shí)間(越低越好)Nexmark(兩億條記錄)阿里云流計(jì)算引擎Flash是ApacheFlink性能的5.7倍各個(gè)Query的運(yùn)行時(shí)間(越低越好)運(yùn)行總時(shí)間(越低越好) 阿里云流計(jì)算引擎Flash 吾苦含喜rr全鏈路企業(yè)級(jí)穩(wěn)定全鏈路企業(yè)級(jí)穩(wěn)定高可用性穩(wěn)定性高可用保障存儲(chǔ)層基礎(chǔ)設(shè)施層任務(wù)零中斷資源動(dòng)態(tài)調(diào)配自適應(yīng)彈性擴(kuò)縮容業(yè)務(wù)零感知數(shù)據(jù)零丟失災(zāi)難時(shí)跨機(jī)房可恢復(fù)秒級(jí)作業(yè)快恢、毫秒級(jí)作業(yè)延遲秒級(jí)極致彈性,高吞吐低延遲自動(dòng)化運(yùn)維、彈性資源調(diào)配自動(dòng)化運(yùn)維、彈性資源調(diào)配RTO分鐘級(jí)6業(yè)務(wù)層邏輯不統(tǒng)一業(yè)務(wù)開(kāi)發(fā)不統(tǒng)一計(jì)算引擎不統(tǒng)一服務(wù)層存儲(chǔ)統(tǒng)一業(yè)務(wù)產(chǎn)品層流批一體存儲(chǔ)層痛點(diǎn)問(wèn)題:①應(yīng)用層效率低接邏輯(同比、環(huán)比、二次加工等),搭建效率低,且容易出錯(cuò)②開(kāi)發(fā)、運(yùn)維、資源成本高流批存儲(chǔ)隔離(面向不同寫入場(chǎng)景),提供的數(shù)據(jù)服務(wù)③數(shù)據(jù)質(zhì)量難保證66服務(wù)層存儲(chǔ)統(tǒng)一埋點(diǎn)數(shù)據(jù)業(yè)務(wù)產(chǎn)品層埋點(diǎn)數(shù)據(jù)數(shù)據(jù)平臺(tái)-流批一體架構(gòu)營(yíng)銷大盤行為分析風(fēng)控決策Al推薦-依據(jù)數(shù)據(jù)新鮮度自動(dòng)更新關(guān)鍵實(shí)時(shí)業(yè)務(wù)實(shí)現(xiàn):流批一體架構(gòu)升級(jí)業(yè)務(wù)收益:·實(shí)時(shí)和離線數(shù)據(jù)業(yè)務(wù)邏輯一體化,口徑天然保持一致·阿里內(nèi)部團(tuán)隊(duì)開(kāi)發(fā)效率提升4-10倍·白天和晚上集群資源得到削峰填谷,資源成本節(jié)省1倍時(shí)效性任意Quary歷史;分區(qū)訪問(wèn)日志歷史;分區(qū)訪問(wèn)日志標(biāo)簽數(shù)據(jù)交易數(shù)據(jù)IOT數(shù)據(jù)ONorders.customer_id=customers.id;業(yè)務(wù)時(shí)效性根據(jù)新鮮度自動(dòng)選擇流批模式自動(dòng)選擇流批模式自動(dòng)刷新結(jié)果數(shù)據(jù)攝入ONorders.customer_id=customers.id;ALTERTABLEcustomer_orT+1處理業(yè)務(wù)價(jià)值T+1處理小文件管理ONorders.customer_id=customers.i新一代流批新一代流批成本成本MaterializedTable幫你智能選擇時(shí)效性小時(shí)級(jí)分鐘級(jí)秒級(jí)全量數(shù)據(jù)增量數(shù)據(jù)周期調(diào)度周期調(diào)度低中高新鮮度流計(jì)算批計(jì)算6單表峰值:非主鍵表:4000單表峰值:非主鍵表:4000w/s主鍵表:1200w/s存儲(chǔ)規(guī)模:50PB+存儲(chǔ)規(guī)模:50PB+介紹快手Flink的規(guī)模和發(fā)展過(guò)程流批一體演進(jìn)介紹快手流批一體演進(jìn)的三個(gè)階段未來(lái)規(guī)劃介紹未來(lái)湖倉(cāng)規(guī)劃未來(lái)規(guī)劃介紹未來(lái)湖倉(cāng)規(guī)劃介紹數(shù)倉(cāng)流批一體的方案和收益介紹快手Flink的規(guī)模和發(fā)展過(guò)程集群規(guī)模AZ多AZ保障湖倉(cāng)&資源統(tǒng)一湖倉(cāng)&資源統(tǒng)一·灰度升級(jí)·指標(biāo)看板·監(jiān)控告警·推廣應(yīng)用設(shè)介紹快手流批一體演進(jìn)的三個(gè)階段開(kāi)發(fā)&維護(hù)成本高計(jì)算&存儲(chǔ)成本高計(jì)算口徑難以拉齊2020~2021時(shí),用戶自發(fā)使用Flink做流批一體嘗試,只替換Flink中的Source和Sink來(lái)減少代碼開(kāi)發(fā)量。基于FlinkSQL引擎來(lái)統(tǒng)一流和批的數(shù)據(jù)處理,減少開(kāi)發(fā)維護(hù)。湖倉(cāng)一體階段總結(jié)●配置化開(kāi)發(fā):業(yè)務(wù)代碼框架支持配置化切換Source●維護(hù)成本低:代碼維護(hù)相對(duì)方便,流批一套代碼級(jí)別)級(jí)別)●資源開(kāi)銷大:流模式,算子實(shí)現(xiàn)不是批場(chǎng)景下最優(yōu)●重試成本高:流模式,task掛掉,整個(gè)作業(yè)重試其他存儲(chǔ)其他存儲(chǔ)制定上線流程,即如何保證上線不出問(wèn)題。解決生產(chǎn)使用中的穩(wěn)定性問(wèn)題,比如慢節(jié)點(diǎn)、資源搶占等。性能影子作業(yè)語(yǔ)法校驗(yàn)執(zhí)行計(jì)劃校驗(yàn)數(shù)據(jù)一致性資源&耗時(shí)對(duì)比語(yǔ)法校驗(yàn)執(zhí)行計(jì)劃校驗(yàn)數(shù)據(jù)一致性資源&耗時(shí)對(duì)比權(quán)限控制測(cè)試階段影子測(cè)試階段影子低優(yōu)作業(yè)作業(yè)選取低優(yōu)作業(yè)作業(yè)選取應(yīng)用層Adhoc平臺(tái)ETL調(diào)度平臺(tái)報(bào)表平臺(tái)JDBC/Be應(yīng)用層計(jì)算資源計(jì)算資源存儲(chǔ)資源總結(jié)●業(yè)務(wù)透明:無(wú)需業(yè)務(wù)介入,完全兼容Hive/SparkBatchSQL能力●引擎能力增強(qiáng):完善了FlinkBatchSQL能力●資源開(kāi)銷大:影子任務(wù)雙跑資源開(kāi)銷巨大●人力成本高:引擎行為、語(yǔ)義、casebycase解決本高本高。事務(wù)任務(wù)和寫入任務(wù)的并發(fā)控制等。索引通常是format自己的索引能力,相對(duì)較弱,對(duì)更新和讀取影響都很大,效率較低。上計(jì)算時(shí)間,數(shù)據(jù)新鮮度較低。業(yè)務(wù)應(yīng)用場(chǎng)景離線場(chǎng)景離線場(chǎng)景√成本降低湖倉(cāng)一體階段合并前一日全量數(shù)據(jù)全量快照表全量快照表全量快照表全量快照表全量快照表實(shí)時(shí)同步全量快照表 湖倉(cāng)一體階段k數(shù)據(jù)同步k數(shù)據(jù)同步ODS層ODS層埋點(diǎn)數(shù)據(jù)埋點(diǎn)數(shù)據(jù)√自研同步引擎(不支持動(dòng)態(tài)分區(qū))√計(jì)算資源、存儲(chǔ)資源開(kāi)銷大湖倉(cāng)一體階段數(shù)據(jù)排序數(shù)據(jù)排序√下游業(yè)務(wù)無(wú)感切換時(shí)效提升明顯>元素曝光平均提效2h30min鏈路平均提效30分鐘鏈路平均提效30分鐘湖倉(cāng)一體階段數(shù)據(jù)均衡數(shù)據(jù)傾斜數(shù)據(jù)均衡總結(jié)r吞吐-輸入13:4520:1520:25優(yōu)化后√避免因?yàn)樽盥齌askflush數(shù)據(jù)導(dǎo)致的斷流提升平均吞吐20%第一個(gè)Task-flush完之后,則startnext√減少HDFS訪問(wèn),減少等待,疊加Instant并行批引擎流Event批Event批引擎流Event批Event流Entity批Entity√成本:存儲(chǔ)不統(tǒng)一√成本:存儲(chǔ)不統(tǒng)一,存儲(chǔ)成本高&用戶數(shù)據(jù)時(shí)延高數(shù)據(jù)時(shí)延高行過(guò)濾行過(guò)濾實(shí)時(shí)寫入批量讀寫---行列過(guò)濾--多流unionKAI實(shí)時(shí)訓(xùn)練√成本:存儲(chǔ)統(tǒng)一,節(jié)約存儲(chǔ)成本&降低√性能:支持列裁剪&batchsize靈活√效率:數(shù)據(jù)新鮮度在秒級(jí)(20~30秒)湖倉(cāng)一體階段湖倉(cāng)一體階段√結(jié)構(gòu)簡(jiǎn)單,模型簡(jiǎn)化√模型復(fù)用度高,下游依賴效率提高查詢效率高,節(jié)約了join環(huán)√多次大數(shù)據(jù)量的join√產(chǎn)出時(shí)效2.5h左右√留存標(biāo)簽存在重復(fù)計(jì)算21did當(dāng)天存在did當(dāng)天不存在did歷史存在更新數(shù)據(jù)保持不變did歷史不存在丟棄33介紹數(shù)倉(cāng)流批一體的方案和收益離線時(shí)效日益緊張,基線破線風(fēng)險(xiǎn)是有發(fā)生底層處理邏輯拉齊,解決當(dāng)前指標(biāo)微小差異1~2小時(shí)延遲秒級(jí)延遲小時(shí)延遲秒級(jí)延遲同步同步秀66去重上游任務(wù)Failover或者中間件重發(fā)數(shù)據(jù)事務(wù)一般通過(guò)兩階段提交,保障數(shù)據(jù)不會(huì)重復(fù)DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計(jì)-方案考量因素?cái)?shù)據(jù)大小數(shù)據(jù)大小業(yè)務(wù)特性數(shù)據(jù)質(zhì)量業(yè)務(wù)數(shù)據(jù)種類數(shù)據(jù)吞吐是否有主鍵數(shù)據(jù)質(zhì)量要求數(shù)據(jù)重復(fù)原因客戶端埋點(diǎn)數(shù)據(jù)巨大,大幾百萬(wàn)/S+業(yè)務(wù)上并沒(méi)有明確主鍵,單獨(dú)設(shè)計(jì)任務(wù)Failover造成的重復(fù)服務(wù)端Binlog數(shù)據(jù)一般,大幾有主鍵高數(shù)據(jù)本身主鍵重復(fù)方案數(shù)據(jù)吞吐時(shí)延優(yōu)勢(shì)事務(wù)寫1大事務(wù)時(shí)延小大容量作業(yè),客戶端埋點(diǎn)數(shù)據(jù)易保障,支持?jǐn)?shù)據(jù)量大事務(wù)寫大事務(wù)時(shí)延小,客戶端埋點(diǎn)數(shù)據(jù)支持多層級(jí)鏈路,支持?jǐn)?shù)據(jù)量較大,但只能支持去重取第一條能力,沒(méi)有回撤能力離線去重小增加額外離線處理時(shí)延狀態(tài)變化多,數(shù)據(jù)量可接受實(shí)現(xiàn)簡(jiǎn)單,支持離線各種語(yǔ)義,數(shù)據(jù)精準(zhǔn),業(yè)務(wù)場(chǎng)景復(fù)雜的場(chǎng)景數(shù)據(jù)湖去重小增加額外數(shù)據(jù)合并時(shí)延據(jù)實(shí)現(xiàn)簡(jiǎn)單,可以支持最后一條更新語(yǔ)義DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計(jì)-方案選擇提效時(shí)長(zhǎng)選擇方案影響直接下游時(shí)效作業(yè)數(shù)下游作業(yè)數(shù)80分鐘+事務(wù)寫直播送禮DWD60分鐘+離線去重(數(shù)據(jù)湖去重)直播播放DWD50分鐘+Flink去重+事務(wù)寫直播曝光DWD90分鐘+Flink去重+事務(wù)寫直播開(kāi)播DIM60分鐘+數(shù)據(jù)湖去重本地元素曝光DWD180分鐘+離線去重(小時(shí)內(nèi))總數(shù)對(duì)比去重總數(shù)對(duì)比主鍵重復(fù)率對(duì)比主鍵關(guān)聯(lián)率對(duì)比明細(xì)字段對(duì)比核心指標(biāo)對(duì)比離線數(shù)倉(cāng)的穩(wěn)定性=Max(離線穩(wěn)定性,實(shí)時(shí)穩(wěn)定性)自我覆蓋實(shí)時(shí)實(shí)時(shí)直接直接DWD數(shù)據(jù)精準(zhǔn)一次方案設(shè)計(jì)-規(guī)模化未來(lái)規(guī)劃介紹未來(lái)湖倉(cāng)規(guī)劃未來(lái)規(guī)劃性能減少HDFS依賴實(shí)時(shí)寬表拼接探索更多的業(yè)務(wù)場(chǎng)景調(diào)度平臺(tái)原有周期性調(diào)度策略不滿足compaction場(chǎng)景的需要,當(dāng)前依賴實(shí)時(shí)掃描發(fā)現(xiàn)不夠優(yōu)雅,未來(lái)未來(lái)規(guī)劃力非常大,一次構(gòu)建重復(fù)使用。品流批統(tǒng)一存儲(chǔ)場(chǎng)景越來(lái)越多,每個(gè)Server的方式資源浪費(fèi)會(huì)比較嚴(yán)重,會(huì)有服務(wù)化按需觸發(fā)。統(tǒng)一服務(wù)有利于資源利用和迭代效劉俊宏|技術(shù)專家架構(gòu)細(xì)節(jié)與性能表現(xiàn)架構(gòu)細(xì)節(jié)與性能表現(xiàn)特征數(shù)據(jù)生產(chǎn)數(shù)倉(cāng)寬表生產(chǎn)寬表生產(chǎn)作業(yè)列1列2列3列5列6列1列2列3列4列5列6特征平臺(tái)、寬表生產(chǎn)提出列式生產(chǎn)■面向生產(chǎn)的schema裁剪■支持不跨列族的謂詞下推離線明細(xì)數(shù)據(jù)生產(chǎn)DB類數(shù)據(jù)導(dǎo)入數(shù)倉(cāng)更新是核心場(chǎng)景之一自研方案HIDI,LSMTree業(yè)務(wù)需求■批流口徑統(tǒng)一■降本增效■降本增效201920202021特征數(shù)據(jù)生產(chǎn)資源和耗時(shí)降低90%,消除存儲(chǔ)冗余商企通長(zhǎng)周期訂單數(shù)據(jù)同步間提前4小時(shí)+批流沖突■數(shù)據(jù)運(yùn)維資源效率問(wèn)題和挑戰(zhàn)相同數(shù)據(jù)量的前提下流寫產(chǎn)出文件數(shù)越多流讀吞吐越低全量表快照表增量快照表快照表dt=20241103dt=20241103架構(gòu)細(xì)節(jié)與性能表現(xiàn)存量數(shù)據(jù)4121312存量數(shù)據(jù)4121312join增量數(shù)據(jù)增量數(shù)據(jù)存量數(shù)據(jù)幕碑標(biāo)識(shí)第三行12423124優(yōu)勢(shì)1倍增量+14 1211231234163524191以支持點(diǎn)查能力4_b419A1Bb121A1Bb1211 模式讀瓶頸LSMTree文件數(shù)量HUDI增量數(shù)據(jù)量寫瓶頸可拓展功能更豐富列式生產(chǎn)改造經(jīng)驗(yàn)多支持,不關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)符合預(yù)期(自研)批支持MVCC和亂序?qū)懭雐ndexing、compact與rescal策略、謂詞下推模式、列式生產(chǎn)方案可復(fù)用批流兼容流讀寫分片1流讀寫分片1批讀分片2批讀分片3批讀分片0批讀分片1文件格式■行存文件2parquet文件1parquetselect*fromtblwherev<5多模式快照■時(shí)序分區(qū)字段■沒(méi)有業(yè)務(wù)意義■分區(qū)字段值線性增長(zhǎng)■數(shù)據(jù)按時(shí)序順序?qū)懭搿龇謪^(qū)間數(shù)據(jù)有繼承關(guān)系■業(yè)務(wù)分區(qū)字段■也有時(shí)間類型字段作為分區(qū)■分區(qū)間數(shù)據(jù)沒(méi)有繼承關(guān)系■如訂單創(chuàng)建時(shí)間■讀寫邏輯■按查詢需求,選擇timelinedeltacommit數(shù)據(jù)運(yùn)維■上下游批運(yùn)維拆分DAG流運(yùn)維job1job1nator寫入數(shù)據(jù)8'消費(fèi)并執(zhí)行木木5通過(guò)sendEventTo9更新各writestatus從新到舊4內(nèi)存壓力達(dá)到閾值寫出文件流寫木………3……………基礎(chǔ)讀寫場(chǎng)景對(duì)比0流讀009單CUQPS663300作業(yè)吞吐MB/s8流寫吞吐隨flink并發(fā)線性增長(zhǎng)08bucket落0歷史數(shù)據(jù)OGBQPS歷史數(shù)據(jù)10GBQPS歷史數(shù)據(jù)50GBQPS歷史數(shù)據(jù)100GBQPS橫向擴(kuò)展能力持不變時(shí),spark作業(yè)完成時(shí)間metaserver時(shí)延受文件數(shù)量線性0250批讀吞吐受單并發(fā)文件數(shù)量線性影響0流讀吞吐受文件數(shù)量線性影響00批流一體數(shù)倉(cāng)規(guī)劃Sook■引擎間調(diào)優(yōu)參數(shù)不兼容Sook■平臺(tái)做引擎專家■沒(méi)有銀彈能覆蓋全部數(shù)據(jù)特征、成本和時(shí)效性需求■兼容批流讀寫模式■SQL算子增量化改造■明細(xì)■列式生產(chǎn),特定場(chǎng)景可局部計(jì)算笛卡爾積算子改造40I112U212U12-Ds000111222122算子改造■采樣selectpercentile(amount,0.5)5-51113U224U13D增量明細(xì)數(shù)據(jù)最終明細(xì)數(shù)據(jù)3士士006Zz332314265士4414255556最終采樣結(jié)果15offset35存量明細(xì)數(shù)據(jù)存量采樣結(jié)果031152233算子改造■可批流切換■明細(xì)+多模式快照■隨算子實(shí)現(xiàn)進(jìn)度推進(jìn)■表粒度對(duì)業(yè)務(wù)透明遷移遷移前遷移中遷移后羅宇俠|阿里云高級(jí)開(kāi)發(fā)工程師ApacheFlinkCommitter架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲(chǔ)架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲(chǔ)架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲(chǔ)架構(gòu)架構(gòu)到數(shù)據(jù)湖統(tǒng)一存儲(chǔ)架構(gòu)分鐘級(jí)數(shù)據(jù)新鮮度分鐘級(jí)數(shù)據(jù)新鮮度,夠了嗎?分鐘級(jí)數(shù)據(jù)新鮮度,夠了嗎?數(shù)據(jù)新鮮度的重要性數(shù)據(jù)準(zhǔn)確性業(yè)務(wù)決策反應(yīng)能力和決策質(zhì)量數(shù)據(jù)完整性數(shù)據(jù)一致性五如果我需要秒級(jí)數(shù)據(jù)新鮮度引入流存儲(chǔ)=》湖流割裂秒級(jí)秒級(jí)分鐘級(jí)每套存儲(chǔ)的故障排查,監(jiān)控,升級(jí)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)一致性數(shù)據(jù)治理列存,高效列裁剪主鍵表高效點(diǎn)查主鍵表實(shí)時(shí)更新統(tǒng)一流湖存儲(chǔ)r流讀 rrrrr一分鐘后一分鐘后一秒內(nèi)數(shù)倉(cāng)分層每層表數(shù)據(jù)新鮮度一致,不受層級(jí)影響若干個(gè)6邁向秒級(jí)數(shù)據(jù)新鮮度降低維護(hù),降低維護(hù),數(shù)據(jù)重復(fù)存儲(chǔ)的成本r維表root@serverl:-/tluss(ssh)未來(lái)規(guī)劃未來(lái)規(guī)劃未來(lái)規(guī)劃騰訊大數(shù)據(jù)天穹流批一體建設(shè)之背景介紹·獨(dú)立的實(shí)時(shí)數(shù)據(jù)處理流,可滿足較靈活的實(shí)·流批數(shù)據(jù)分開(kāi)存儲(chǔ),難以相互引用·規(guī)模受限,在全量數(shù)據(jù)湖的基礎(chǔ)上,仍需要有獨(dú)立Lakehouse的技術(shù)2019年推出后,提供了湖內(nèi)數(shù)據(jù)的·架構(gòu)更加簡(jiǎn)單,數(shù)據(jù)湖技術(shù)棧同時(shí)實(shí)現(xiàn)實(shí)時(shí)增量和離線批量數(shù)據(jù)加工開(kāi)發(fā)、存儲(chǔ)成本低DataSourcespresto》spok0010010001000011111111118ss關(guān)鍵特性透明化流批數(shù)據(jù)的存儲(chǔ)和轉(zhuǎn)慣和體驗(yàn)流批統(tǒng)一流批統(tǒng)一實(shí)時(shí)性與批處理的統(tǒng)一,支持實(shí)時(shí)數(shù)據(jù)流處理和歷史數(shù)據(jù)批易用性低開(kāi)發(fā)和運(yùn)維成本實(shí)時(shí)性實(shí)時(shí)性的流讀能力數(shù)據(jù)一致性圖一致性查詢加速查詢加速提升業(yè)務(wù)回溯歷史數(shù)據(jù)效率和離線批查性能可快速兼容新出現(xiàn)的開(kāi)源方案,架構(gòu)支持水平擴(kuò)展支持容錯(cuò)機(jī)制,確保數(shù)據(jù)不丟失和計(jì)算結(jié)果準(zhǔn)確秒級(jí)/毫秒級(jí)流讀順序性低延遲流寫秒級(jí)/毫秒級(jí)流讀順序性低延遲流寫基礎(chǔ)能力解決開(kāi)源數(shù)據(jù)湖方案中數(shù)據(jù)延遲高的問(wèn)題,提供優(yōu)秀的批讀、批寫能力,以及秒級(jí)/毫秒級(jí)的流讀、流寫能力,同時(shí)保證了秒級(jí)別的數(shù)據(jù)可見(jiàn)性。提供EOS語(yǔ)義、事務(wù)、順序性保證、訂閱模式、生命周期管理以及權(quán)限等功能。兼容數(shù)據(jù)湖保留了Iceberg、Paimon等數(shù)據(jù)湖的行為和使用習(xí)慣,提供了Catalog、DB、Table等語(yǔ)義,并提供了兼容Iceberg、Paimon等數(shù)據(jù)湖格式的統(tǒng)一客戶端。使得已經(jīng)使用數(shù)據(jù)湖的用戶可以無(wú)縫切BSSBSS核心能力提供低延遲的批流一體存儲(chǔ)BSS提供包括但不限于流上數(shù)據(jù)的點(diǎn)查、范圍查、有效過(guò)濾、批詢、多數(shù)據(jù)視圖等能力。目前BSS已經(jīng)跟天穹內(nèi)等組件打通,用戶可在天穹大數(shù)據(jù)體系下使用BSS。APPClients目目目 123sparksparkSELECT*FROMorders$iceberg$SELECT*FROMorders$iceberg$histo……4.Authentication&Authorizpayload-sizeevent_time事務(wù)日志事務(wù)日志5.1廣播提交9任務(wù)執(zhí)行頻率資源分配資源分配JOBJOB組裝③③⑤⑤002name_12221n33102341212987654327.5—7.43writetps0BSSIceberg非分區(qū)iceberg分區(qū)Paimon非分區(qū)Paimon分區(qū)240.2271.20小消息吞吐(單條消息213B)大消息吞吐(單條消息4MB)65655.35.324KBmessage吞吐對(duì)比(MB/s)0NONENONE
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生住校財(cái)產(chǎn)安全監(jiān)管責(zé)任協(xié)議
- 油田注水井施工合同
- 樂(lè)器店租賃協(xié)議范本
- 建筑涂料施工合同封面
- 家居設(shè)計(jì)技術(shù)合同守則
- 2024版項(xiàng)目居間合作協(xié)議合同范本
- 二零二五年度廣告安裝與社區(qū)文化推廣合同范本3篇
- 二零二五年度知識(shí)產(chǎn)權(quán)資產(chǎn)評(píng)估與交易合同正規(guī)范本3篇
- 江南影視藝術(shù)職業(yè)學(xué)院《特殊教育學(xué)與基礎(chǔ)手語(yǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024廣告發(fā)布合作合同
- 《米奇妙妙屋》課件
- 質(zhì)量手冊(cè)(依據(jù)ISO9001:2023年標(biāo)準(zhǔn))
- 路燈更換施工方案
- 大力弘揚(yáng)教育家精神爭(zhēng)做新時(shí)代大先生PPT以文化人的弘道追求展現(xiàn)了中國(guó)特有的教育家精神PPT課件(帶內(nèi)容)
- 生產(chǎn)工藝過(guò)程說(shuō)明書
- 房產(chǎn)居間服務(wù)傭金協(xié)議書
- 高中生-學(xué)習(xí)方法指導(dǎo)課件
- RoboCup中型組機(jī)器人比賽規(guī)則MSLR
- 抗生素使用強(qiáng)度降低PDCA
- 第二版《高中物理題型筆記》下冊(cè)
- 優(yōu)秀教師獎(jiǎng)勵(lì)審批表
評(píng)論
0/150
提交評(píng)論