FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第1頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第2頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第3頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第4頁
FFA2024分論壇-生產(chǎn)實踐 合輯-部分1_第5頁
已閱讀5頁,還剩471頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

節(jié)點自愈節(jié)點自愈算法算法豐富的Connector生態(tài)場景使用場景使用方式商業(yè)化數(shù)倉數(shù)倉熱點機器單個機器瞬時負載過高熱點機器單個機器瞬時負載過高作業(yè)硬件故障作業(yè)硬件故障網(wǎng)絡異常網(wǎng)絡異常硬件故障熱點機器網(wǎng)絡異常某機器掉盤導致該節(jié)點上的作業(yè)進行Checkpoint載過高導致該節(jié)點上所有相關作業(yè)出現(xiàn)延遲交換機故障導致轉發(fā)表機器通信時頻繁丟包導致作業(yè)大規(guī)模頻繁重啟排查時間長:大量作業(yè)失敗,很難通過人工排查短時間內(nèi)定位到真正的問題節(jié)點爆炸半徑大:問題節(jié)點出現(xiàn)在高優(yōu)隊列則涉及較多高優(yōu)任務,若未能及時排除異常節(jié)點則會導致資損投票選出投票選出延遲檢測器延遲檢測器020213·根據(jù)作業(yè)報警配置確定觸發(fā)閾值 ·延遲并發(fā)數(shù)小于整體并發(fā)30%32 32·作業(yè)必須存在高于閾值的延遲 ·問題并發(fā)數(shù)小于整體并發(fā)30% ·問題并發(fā)吞吐低于平均值80%000111222·作業(yè)必須存在高于閾值的延遲 ·問題并發(fā)吞吐低于平均值50% ·問題并發(fā)算子延遲高于平均值80% ·問題并發(fā)數(shù)小于整體并發(fā)30%000111222102102 ·問題并發(fā)數(shù)小于整體并發(fā)30%·節(jié)點上所有問題作業(yè)擁有投票權·不少于50%的作業(yè)認為該節(jié)點為可疑節(jié)點則輸出根據(jù)Task失敗情況尋找可疑節(jié)點,以下情況將被記錄 心跳超時之間網(wǎng)絡錯誤TaskManager出現(xiàn)兩次記錄出現(xiàn)三次記錄 ·數(shù)據(jù)傾斜難以判定·指標可能存在延遲·數(shù)據(jù)質(zhì)量問題也可能導致假陽性·網(wǎng)絡丟包率波動并未導致作業(yè)失敗·拉慢節(jié)點:調(diào)低指定節(jié)點在調(diào)度時的選擇權重·拉黑節(jié)點:禁止新進程調(diào)度到指定節(jié)點·驅逐作業(yè):驅逐節(jié)點上部分或所有作業(yè)·業(yè)務或機器指標得出的·業(yè)務或機器指標得出的·業(yè)務和機器指標相互印·黑名單聚合節(jié)點MasterFailover與Task單點恢復異常節(jié)點自愈耗時長任務斷流時間長Task單點恢復Task單點恢復MasterFailover-為什么耗時長? 如何做到不斷流? ·Task上報信息,Master做信息重建 ·結合作業(yè)狀態(tài)判斷是否需要ReleaseTask ·ReleaseTask行為延時處理 ·OperatorCoordinator狀態(tài)重建TM側rr 映射關系SharedSlotSourceReaderSourceReaderSourceReaderSplitAssign的流程(以Flip-27KafkaSource為例)·chechpoint狀態(tài)滯后1 ·Coordinator恢復失敗集齊后統(tǒng)一FailorCancel,避免額外狀態(tài)管理A2A2A2…Netty通信模型 ·上游主動清理不完整subpartition(社區(qū)已實 只重啟失敗TaskRegion+計次回退-rAbnormalerrorrateAnoTHANKTHANKYOU實例級穩(wěn)定性體系建設實踐實例級穩(wěn)定性體系總結實例級穩(wěn)定性體系總結價值與展望全球部署X個地域X千個用戶實例實時鏈路大屏FlinkTPS超大規(guī)??傄?guī)模X百萬核雙十一峰值TPS突破XX億阿里云控制臺&SDK數(shù)據(jù)庫數(shù)據(jù)庫阿里云控制臺&SDK數(shù)據(jù)庫數(shù)據(jù)庫日常應急80%來自單客戶動失敗動慢日常應急80%來自單客戶日常應急80%來自單客戶作業(yè)非作業(yè)非動失敗動慢處置報警處置不易找到關鍵指標不易找到關鍵指標處置報警處置不易找到關鍵指標不易找到關鍵指標處置報警處置不易找到關鍵指標不易找到關鍵指標不科學不科學問題思路問題思路2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難問題思路問題思路1.單客戶問題頻發(fā)2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難1.穩(wěn)定性視角由集群級1.單客戶問題頻發(fā)2.運維能力不夠系統(tǒng)化3.產(chǎn)品穩(wěn)定性度量困難問題思路問題思路并圍繞其增強自動化3.使用可用率度量穩(wěn)定性Flink作業(yè)能否成功啟動與停止建設以提高關鍵鏈路的可用率為目標的實例級穩(wěn)定性體系Flink實例級穩(wěn)定性體系項目大圖變更熔斷外部協(xié)作外部協(xié)作發(fā)現(xiàn)診斷恢復異常預防發(fā)現(xiàn)診斷恢復異常預防Flink實例級穩(wěn)定性體系項目大圖變更熔斷外部協(xié)作外部協(xié)作發(fā)現(xiàn)診斷恢復異常預防發(fā)現(xiàn)診斷恢復異常預防實例級穩(wěn)定性體系實例級穩(wěn)定性體系04可用率運營提升方案04可用率運營提升方案作業(yè)啟動、停止、刪除作業(yè)啟動、停止、刪除用戶探針8阿里云控制臺&SDK探針作業(yè)管控面計算面K8s集群用戶探針8阿里云控制臺&SDK管控面計算面為每個VC創(chuàng)建獨立Namespace不參與計費K8s集群監(jiān)控作業(yè)定義部署多地熱備高可用穩(wěn)定灰度分批推平日均百萬頻次探測殘留資源巡檢CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(作業(yè)定義部署多地熱備高可用穩(wěn)定灰度分批推平日均百萬頻次探測殘留資源巡檢CREATETEMPORARYTABLECREATETEMPORARYTABLEdatagen_source(04可用率運營提升方案實例級灰度發(fā)布實例級灰度切流。變更三板斧實例月不可用時間速算實例級灰度發(fā)布實例級灰度切流。變更三板斧實例月不可用時間速算2.指標類巡檢類型問題2.指標類巡檢類型問題2.指標類巡檢類型問題類型問題AlOps智能巡檢+LLMOps智能巡檢(算法服務)實體&觀測觀測數(shù)據(jù)實體&觀測觀測數(shù)據(jù)維度維度查詢Tool時序畫像時序建?!L險判別時序畫像LLM知識庫樣本建模—SRE介入診斷結果反饋打標診斷結果AlOps智能巡檢+LLMOps智能巡檢(算法服務)實體&觀測觀測數(shù)據(jù)實體&觀測觀測數(shù)據(jù)維度維度查詢Tool時序畫像時序建?!L險判別時序畫像LLM知識庫樣本建模—SRE介入診斷結果反饋打標診斷結果*大模型引擎:*大模型引擎:*可見性:產(chǎn)品線:流/批節(jié)點異常集群水位趨勢風險事件集群水位趨勢風險事件陡增公開僅租戶內(nèi)可見flink智能體說明:你是一個flink的集群資源管理員,能夠回答集群相關的任何問題。集群的水位是cpu使用數(shù)/cpu總數(shù)的百分比。智能體說明:其中集群邏輯水位百分比=集群使用的CPU核數(shù)/集群的CPU總核數(shù)。如果水位過高,可能是cpu使用過高,也可能是cpu總數(shù)過低。cpu使用過高是由于flink作業(yè)導致的,cpu總數(shù)過低是由于集群節(jié)點數(shù)少,提供的cpu過少導致的。分析時請先從異常情況開始進行下鉆分析。陡降分析的時候,建議查詢前后1小時的數(shù)據(jù)。注意時間數(shù)據(jù)格式為YYYY-MM-DDHH:MM,陡降*可見性:流/批集群水位趨勢風險事件集群水位趨勢風險事件陡增flink其中集其中集于flinkf分析時分析的工具綁定:Flink集Flink集群CPU邏輯水位查詢工具v自由調(diào)用V陡降VFlink集群作業(yè)數(shù)查詢工具陡降V集群水位趨勢風險事件集群水位趨勢風險事件陡陡降陡增流/批流/批節(jié)點異常*可見性:公開僅租戶內(nèi)可見產(chǎn)品線:flink集群的其中集工具綁定:分析時HH:MNFlink集群CPU邏輯水位查詢工具v自由調(diào)用請問8.1日01:30收到了a集群CPU邏輯水位超限報警,flink集群資源管理員V2(flink_manager_v2)8.1日01:38集群CPU邏輯水位超限據(jù)的順因是作業(yè)數(shù)量的端加導致cPU使用率上開。該時段內(nèi)作業(yè)平均地加了約■個,與此同時,cPU使用達到了78.53的高水位,接近或超過了系閾值,而CPU總核數(shù)保持穩(wěn)定,未有增加,因此作業(yè)負載的增加是導致此次報警的主要原04可用率運營提升方案SLI、SLO、可用率與SLA定義實踐探測作業(yè)生命周期總耗時<=X分鐘可用率(服務周期總時長-SLOBreak總時長)/服務周期總時長SLA可用率不達標會產(chǎn)生賠付SLI、SLO、可用率與SLA定義實踐探測作業(yè)生命周期總耗時<=X分鐘可用率(服務周期總時長-SLOBreak總時長)/服務周期總時長SLA可用率不達標會產(chǎn)生賠付20/30分鐘20/30分鐘15分鐘 粒度集群級影響面根據(jù)異常組件推測理論影響面人工統(tǒng)計,格式雜亂,信息不全 現(xiàn)在現(xiàn)在粒度實例級影響面根據(jù)探針結果獲得實際影響面自動拉取播報,信息全面準確 通知卡片實例級影響面快照與累積明細影響面輔助應急決策當前管控狀態(tài)當前計算狀態(tài)華北2(北京)0◎●華北3(張家口)◎◎◎◎○●華北6(烏蘭察布)◎o◎◎o◎◎華東1(杭州)◎◎◎◎○◎◎◎◎◎◎◎華南1(深圳)◎o◎o◎·中國香港○o◎o日本(東京)◎◎○◎◎◎○美國(弗吉尼亞)◎◎◎◎◎o美國(硅谷)◎◎◎◎印度尼西亞(雅加達)◎◎○●馬來西亞(吉隆坡)○◎○◎○○●英國(倫敦)◎◎0德國(法蘭克福)◎O◎◎◎◎ 大數(shù)據(jù)技術智能助理白機器人計算平臺大數(shù)據(jù)技術智能助理白機器人計算平臺Flink子產(chǎn)品狀態(tài)通知異常異常實例級影響面快照與累積影響面明細影響面輔助應急決策明細影響面輔助應急決策 通知卡片實例級影響面快照與累積明細影響面輔助應急決策 「異常處置」診斷定界定位診斷實時看護作業(yè)運行生命周期的全過程能力啟動e.g.由于剩余資源不足,導致作業(yè)無階段法啟動,請擴容解決法正?;謴停堉貑⒔鉀Qe.g.由于產(chǎn)品老版本過低隱患,導致停止作業(yè)慢,請重啟解決豐富異常診斷規(guī)則覆蓋高頻且復雜問題場景用戶啟動Flink作業(yè)網(wǎng)絡接入網(wǎng)絡接入應用網(wǎng)關管控面JobManager主容器啟動Super集群資源創(chuàng)建VC集群資源創(chuàng)建計算面作業(yè)運行面向業(yè)務增加診斷項原子面向場景組織診斷DAG 接口層運行風運行風險配置風險數(shù)據(jù)風險停止緩慢資源異常網(wǎng)絡異??煺债惓_\行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務層決策樹事前風險事前風險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 接口層運行風運行風險配置風險數(shù)據(jù)風險停止緩慢資源異常網(wǎng)絡異??煺债惓_\行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務層決策樹事前風險事前風險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 接口層運行風運行風險配置風險數(shù)據(jù)風險停止緩慢資源異常網(wǎng)絡異??煺债惓_\行異常啟動緩慢啟動失敗歷史錯誤變更抖動節(jié)點宕機決策樹服務層決策樹事前風險事前風險存儲層數(shù)據(jù)層事件日志數(shù)據(jù)層事件日志數(shù)據(jù)源 田運行中部署詳情狀態(tài)總覽數(shù)據(jù)曲線田運行中部署詳情狀態(tài)總覽數(shù)據(jù)曲線運行事件狀態(tài)集管理作業(yè)日志自動調(diào)優(yōu)血緣關系智能診斷告警配置健康評分:76開始診斷健康評分:76開始診斷山√資源分析V展開詳情將作業(yè)并發(fā)從7改為35立刻應用vState分析 ◎運行中停止創(chuàng)建快照刪除大數(shù)據(jù)技術智能助理由機器人服務執(zhí)行中,請稍候服務執(zhí)行中,請稍候德國(法蘭克福)計算面發(fā)生時間:發(fā)生時間:>作業(yè)分析>作業(yè)分析影響面影響客戶:當前3/累計3影響實例:當前13/累計138異常工單[1]來源:計算集群批量實例影響客戶:當前3/累計3影響實例:當前13/累計138異常工單[1]來源:計算集群批量實例SLOBreak異常影響:用戶實例(VC)啟停異常全局觀測定界:定位:網(wǎng)卡未掛載“已關閉”ChatOps自助機器人報警自動化處置卡片 容量容量降級業(yè)務故障日常服務故障日常K8s節(jié)點物理機名稱5分鐘15分鐘60分鐘X月X日XX用戶Flink任務批量啟【】客訴工單【】GOC應急【】不達標【】錯誤●定界準確性【】準確【】自愈【】不達標【】無效事中事中事后線上問題可以明確歸屬到對應服務可運營可用率波動具備可解釋性根因根因可用率目標合理并具備提升路徑線上問題可以明確歸屬到對應服務可運營可用率波動具備可解釋性根因根因可用率目標合理并具備提升路徑圖日圖日外部協(xié)同外部協(xié)同產(chǎn)品可用率線上全部實例可用率的均值賠付實例占比可用率不達標的實例占比配置錯誤Advisor發(fā)現(xiàn)問題Advisor發(fā)現(xiàn)問題使得各相關方看到項目的價值甚至是預期外的收獲是可用率目標持續(xù)提升的關鍵探針探針 穩(wěn)定性協(xié)同協(xié)同客戶1.1服務周期:一個服務周期為一個自然月。1.2服務周期總分鐘數(shù):服務周期內(nèi)的總天數(shù)×24(小時)×60(分鐘)計算。1.3服務不可用分鐘數(shù):在連續(xù)3分鐘(或者更長的時間內(nèi),客戶所有試圖與指定的Flnk全托管實例建立連接的嘗試均失敗,則視為這段時間內(nèi)該Fink全托管實例服務不可用。在一個服務周期內(nèi)單個Fnk全托管實例不可用分鐘數(shù)之和即服務不可用分鐘數(shù)。1.4月度服務費用:客戶在一個自然月中就單個Fink全托管實例所支付的服務費用總額,如果客戶一次性支付了多個月份的服務費用,則將按照所購買的月數(shù)分攤計算月度服務費用。1.2服務周期總分鐘數(shù):服務周期內(nèi)的總天數(shù)×24(小時)×60(分鐘)計算。實時計算優(yōu)化實踐陶王飛|抖音集團數(shù)據(jù)工程師羊藝超|抖音集團數(shù)據(jù)工程師未來規(guī)劃未來規(guī)劃視頻《體然我行我素》knchotsoWrn0年坑選平-上萬睡火監(jiān)程箱-你玩的相干稿美首頁特點視頻場景特點:流量大直播場景特點:狀態(tài)大數(shù)據(jù)源數(shù)據(jù)存儲書數(shù)據(jù)存儲書業(yè)務應用品品報表分析實時數(shù)倉異常恢復慢資源消耗大異?;謴吐Y源消耗大66子作業(yè)1(機房A)子作業(yè)2(機房B)子作業(yè)2(機房C)優(yōu)化DWD擴展Shuffle優(yōu)化Shuffle優(yōu)化視頻*1天累計作業(yè)(高優(yōu)場景&寬表建模)高低優(yōu)作業(yè)&隊列拆分自動化容災JIT編譯失敗占40%資源占40%資源GC資源消耗20萬+頭部任務分析問題總結能力推廣資源消耗20萬+業(yè)務應用數(shù)據(jù)存儲實時數(shù)倉業(yè)務應用數(shù)據(jù)存儲推薦策略數(shù)據(jù)產(chǎn)品推薦策略數(shù)據(jù)產(chǎn)品視頻*1天流量熱點借助cache,請求仍然達到千萬級。無論是成本還是鏈路穩(wěn)定性,壓力大?,F(xiàn)狀:億級RPS下,維表關聯(lián)在開啟緩存,且緩存命中率90%+時,維表關聯(lián)qps仍高達千萬級視頻(幾千億條)、用戶維表(離線)、監(jiān)控規(guī)則(百萬條)作業(yè)1(機房A)作業(yè)2(機房B)作業(yè)2(機房C)大流量維表關聯(lián)優(yōu)化-解決方案【subtask1【subtask2【subtask2【subtaskN算子算子waterwater據(jù)【subtask1【subtaskN【subtaskN維表構建時間一應用場景:大流量場景下的維表關聯(lián),業(yè)務對維度更新感知接受時間在分鐘級別收益:部分Flink作業(yè)無需訪問Abase,節(jié)約400萬+qps。相關任務追數(shù)據(jù)場景下不再有外部訪問瓶頸。視頻*1天作業(yè)數(shù)據(jù)重復下大流量冪等計算-解決方案冪等處理:保留同1min最新結果1小時粒度結果大流量冪等計算-性能優(yōu)化數(shù)據(jù)時間粒度:數(shù)據(jù)時間粒度:1分鐘=60000msbucketsize=上卷時間粒度/數(shù)據(jù)時間粒度上卷時間粒度:1天=86400000msmaxDiffTimes[1440]590005910059000輸入數(shù)據(jù):(10,10,1),1653840299000基礎時間戳=946656000000(對應日期2000-01-0100:00:00)bucket=(timestamp-基礎時間戳)%上卷時間粒度/數(shù)據(jù)時間粒度=(1653840299000-946656000000)%86400000/6bucket上的最大時間戳偏移量:bucket_diff_time=(timestamp-基礎時間戳)%上卷時間粒度%數(shù)據(jù)時間粒度=(1653840299000-946656000000)%86400000%6maxDiffTimes[4]<59000,所以metrics[4]="10.10.1.max1440個分鐘1440個分鐘bucket視頻*1天作業(yè)視頻*1分鐘作業(yè)視頻*1天作業(yè)視頻*1分鐘作業(yè)8流量營收…流量營收…>>狀態(tài))→穩(wěn)定性差&重啟恢復大2000core、18T慢狀態(tài))→穩(wěn)定性差&重啟恢復大狀態(tài)優(yōu)化-場景分析直播間特點:開關播時間、開播時長不固定最大30天最大30天開播時長狀態(tài)大小占比分析時長<1天多存了6天+少存分析結論:狀態(tài)固定TTL與直播間動態(tài)TTL矛盾導致99%+狀態(tài)存儲時長過長,5‰oo+過短解決思路:對齊狀態(tài)TTL和直播間TTL,實現(xiàn)直播間關播后才刪除狀態(tài)大狀態(tài)優(yōu)化-方案設計直播流量數(shù)據(jù)MQ直播間關播MQ啟發(fā)啟發(fā)流量接收關播消息刪除流量接收關播消息刪除聚合結果MQ直播流量數(shù)據(jù)MQ直播間維表聚合結果MQRetract機制刪除狀態(tài)高低解耦擴展性差優(yōu)不兼容高中資源消耗高中6方案落地table.exec.state.ttl=30d①運行參數(shù)配置/**+USECOMPACTIONFILTER('path'='xxx.xxx.clearudf','field'='room性能優(yōu)化方案收益優(yōu)化分類優(yōu)化手段優(yōu)化收益>業(yè)務視角:支持直播間場次30天累計計算技術視角:直播場次作業(yè)狀態(tài)平均下降60%;CPU資源使用上漲CPU漲幅:400%→70%場景(作業(yè)平穩(wěn)運行)場景(作業(yè)平穩(wěn)運行)目標目標流處理批處理分析結論:追lag場景下流處理的低吞吐現(xiàn)狀與預期的高吞吐目標存在矛盾解決思路:流處理作業(yè)動態(tài)監(jiān)測消費積壓指標判斷作業(yè)對高吞吐和低延遲的傾向性,通過在當前算子上引入Sorter排序及動態(tài)調(diào)整MiniBatch大小的能力實現(xiàn)流批執(zhí)行模式動態(tài)切換6大流量回溯優(yōu)化-方案設計③動態(tài)啟用Sorter并調(diào)整MiniBatch大?、俜e壓檢測②檢測結果傳遞自動檢測積壓狀態(tài)的時間間隔createtabledwd_log_live_show_even'scan.partition-lag.discovery'scan.backlog.max-avg-partit'scan.backlog.min-avg-parti方案收益未來規(guī)劃未來規(guī)劃未來規(guī)劃恢復場景優(yōu)化通用優(yōu)化場景優(yōu)化通用優(yōu)化汽車之家實時平臺4.0建設實踐Paimon豐富的功能給數(shù)倉帶來提效 用的功能·數(shù)據(jù)實時/批量寫入·豐富的合并引擎 ·數(shù)據(jù)全增量的查詢·歷史版本回溯99 計計算引擎AoMg0M加速數(shù)據(jù)加工個計算查詢個計算查詢臺臺FDFDM存儲層臺臺個數(shù)據(jù)加工離線鏈路通過使用Paimon流量寬表加速流量數(shù)據(jù)的清洗 Paimon流量檢查數(shù)據(jù)完整性策略:流量數(shù)據(jù)加工鏈路的時效性整體提升1小時以上排序過Paimon的數(shù)據(jù)文件查詢SQL:select*from查詢SQL:select*fromtablewherefield='c'排序合并之后,通過查看排序字段的值在每個文件的范圍在執(zhí)行計劃階段更加容易濾掉不需要的文件Mapper數(shù)12131個24-1367個業(yè)務庫數(shù)據(jù)實時入湖通過調(diào)度任務天/小時周期同步業(yè)務庫數(shù)據(jù)入倉主鍵表通過業(yè)務庫CDC數(shù)據(jù)更新Paimon主鍵表業(yè)務庫數(shù)據(jù)時效性從天/小時級別提升到分鐘級別 設置源設置源Topic信息接入作業(yè):1482接入作業(yè)_mysql_binlog_chuangkeyun_mw0_3306√□cky_stars_formal.s□cky_stars_formal.starcky_stars.star_product_it□全選2.設置目標Paimon的信息_rtsnapshot.time-retained1數(shù)據(jù)源表: 計算引擎/表類型Paimon表Hive表Hive引擎spark引擎優(yōu)化后,不同引擎查詢Paimon表對HDFS訪問次數(shù)均有減少,低于對Hive表的訪問次數(shù)家使用 ·使用Hive引擎查詢,Paimon表對HDFS的請求次數(shù)較優(yōu)化前減少83%,比Hive表減少65% ·使用Spark引擎查詢,Paimon表對HDFS的請求次數(shù)較優(yōu)化前減少49計算引擎/表類型Paimon表(優(yōu)化前)Paimon表(優(yōu)化后)Hive表Hive引擎spark引擎排序合并localsampleglobalsample讀取數(shù)據(jù)排序合并localsample排序合并解決采樣階段瓶頸: --table_confsort-compaction.local-sample.m解決數(shù)據(jù)大小傾斜: --table_confsort-compaction.range-strategy=SIZE效果:資源相同的情況下效率會有2倍以上的提升13分鐘22秒013分鐘22秒0自動調(diào)度18分鐘47秒0自動調(diào)度11分鐘5秒0自動調(diào)度12分鐘7秒0自動調(diào)度10分鐘15秒0自動調(diào)度17分鐘6秒0自動調(diào)度10分鐘38秒0自動調(diào)度13分鐘10秒0自動調(diào)度13分鐘35秒0自動調(diào)度自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度0自動調(diào)度背景背景:·實時集群資源緊張,資源需求日益增長,較21年任務數(shù)和計算量都增長了一倍·實時離線任務分別在獨立集群,不能互相錯峰利用資源錯峰利用服務器資源,保證資源被充分利用在治理任務過程中沉淀出治理方案和引擎改造,賦能給用戶隊列監(jiān)控隊列監(jiān)控調(diào)度客戶端開發(fā)客戶端Spark客戶端離線隊列 任務離線資源 8.將伸縮容后的配置持久化8.將伸縮容后的配置持久化真正執(zhí)行伸縮容操作3.通知任務伸縮容.從prometheus拉取metric,計算健康及資源評分9.反饋伸縮容結果,異常恢復策略處理平臺服務平臺服務1.請求伸縮容Yarn提供基于時間,資源量等規(guī)則的隊列調(diào)度機制,將任務調(diào)度到實時隊列 ·混部時間段調(diào)度規(guī)則:指定時間段開啟任務到隊列的動態(tài)綁定,例如:00:50~09:00 背景背景:燈塔平臺燈塔平臺診斷類型:內(nèi)存浪費CPU浪費CPU內(nèi)存比例不合理重啟時間配置時間過長(核數(shù))(個)(個)負責人診斷類型:內(nèi)存浪費診斷類型:診斷類型:CPU浪費分析造成Full分析造成Fullgc的原因,0數(shù)據(jù)/空閑slot數(shù)量占比24小時內(nèi)FullGC次數(shù)24小時內(nèi)CPU綜合使用率小于25%的時間占比24小時內(nèi)CPU(分TaskManager)綜合使用率[含補償…24小內(nèi)GC釋放的內(nèi)存大小的平均相對占比24小時內(nèi)任務網(wǎng)絡隊列占滿的時間占比必須CPU使用率低,請減少Slot數(shù)或者降低Slot與CPU的PU綜合使用率小于25%的時間映射比例,如果存在數(shù)據(jù)傾斜,請調(diào)整數(shù)據(jù)交換策0---線程ID線程名線程組>18LegacySourceThread-Source:kafkaV2-with-wakanda-…FlinkTask比>120LegacySourceThread-So>>116LegacySourceThread-Source:kafkaV2-with-wakanda-.FlinkTask..47.48%2377ms實現(xiàn)步驟:請求的時候將請求的時候將 效果:任務診斷助手、任務指標查詢助手感知+規(guī)劃智能智能查詢排查平臺@實時平臺助手②實時任務5265為什么重啟@實時平臺助手②實時任務5265為什么重啟任務5688為什么消費延遲任務5688為什么消費延遲任務5688為什么消費延遲任務5688在最近1小時內(nèi),平均延遲數(shù)為70085779。了100,可能會導致任務處理能力下降,從而導致任·主機名:128-246-100.If.autohome.cc,·主機名:128-248-27.If.autohome.cc,load1:94這兩臺主機的load1值均超過了閾值80,說明@王剛正在查詢?nèi)蝿罩笜?,稍后將根?jù)查詢到的信息實時平臺助手鹵機器人17:08@王剛1.錯誤分類:用戶配置(代碼)2.錯誤原因:堆內(nèi)存不足導致的內(nèi)存溢出異常。3.錯誤原因分析:根據(jù)異常堆棧信息,“java.lang.OutOfMemoryError:Javaheap4.改進或優(yōu)化建議:增加taskmanager內(nèi)存,參數(shù)用戶用戶回復4094最近3小時cpu4094最近3小時cpu使用率查詢時間:2024-11-0816:42:26到-If_hadoop_apollo_28_240_2...隨時隨地按需查詢隨時隨地按需查詢指標頁面復雜,指標眾多,翻看耗時結果解析用戶回復查詢模版回復查詢參數(shù)未來規(guī)劃未來規(guī)劃1.探索Paimon+StarRocks近實時OLAP場景2.Flink引擎版本升級3.推廣FlinkCDC替換自研的業(yè)務庫CDC微信掃描二維碼,關注我的公眾號DataOps能力建設未來規(guī)劃與展望是否新增任務務數(shù)是否新增任務準確性驗證管理規(guī)范能力DataOps是一種協(xié)同數(shù)據(jù)管理實踐,專注于提升跨組織的數(shù)據(jù)管理者與數(shù)據(jù)消費者之間DataOps是一套實踐、流程程的數(shù)據(jù)觀點與敏捷軟件工程中的自動化和方法相結合,以提高質(zhì)量、速度和協(xié)作,促進信通院DataOps是一種現(xiàn)代數(shù)據(jù)研發(fā)DataOps以安全、高質(zhì)量、高通過人員、技術和流程間的緊密協(xié)同關系,實現(xiàn)對數(shù)據(jù)研發(fā)運營管理全生命周期的持續(xù)優(yōu)化,進而提升組織數(shù)據(jù)研發(fā)運營管理工作的自動化、敏捷化、協(xié)同化水構建高效協(xié)同機制構建高效協(xié)同機制產(chǎn)質(zhì)量產(chǎn)質(zhì)量平臺·全流程管控沉淀至工具平臺●搭建需求全鏈路度量及反饋體系精化數(shù)據(jù)運營,實現(xiàn)降本增效●搭建需求全鏈路度量及反饋體系精化數(shù)據(jù)運營,實現(xiàn)降本增效管控規(guī)劃持續(xù)開放共建開發(fā)版本控制運維自動化測試反饋自學習自學習ExtensionPipelineOpenEventOpenAPI規(guī)劃-流程管理-能力介紹規(guī)劃-流程管理-能力介紹定義需求管理流程作業(yè)變更與需求綁定需求流程需求開始需求評審開發(fā)&自測部署上線驗收交付綁定開發(fā)流程狀態(tài)更新綁定作業(yè)開發(fā)數(shù)據(jù)測試流水線發(fā)布規(guī)劃-流程管理-方案實現(xiàn)規(guī)劃-流程管理-方案實現(xiàn)【營收活動POO開發(fā)進行中已進行5天8|田|8復制標題和鏈接|…求排完成+新增任務需求模版*實時需求需價值回收需求交付需求臨收kStreamingsQL智能/DE指×需求管理綁定需綁定需求創(chuàng)建需求C【營收激勵】拓展寶石積分激勵…直播中臺-國內(nèi)數(shù)據(jù)需求開發(fā)-環(huán)境管理-能力介紹->線上環(huán)通過項目控制臺開啟多環(huán)境,定義任務在不同環(huán)境之間的流轉規(guī)則(測試環(huán)境->線上環(huán)境)以及元信息映射(數(shù)據(jù)源/隊列/配置)來實現(xiàn)生產(chǎn)和測試環(huán)境隔離。提交部署提交部署數(shù)數(shù)據(jù)源/隊列/配置開發(fā)-環(huán)境管理-方案實現(xiàn)進行環(huán)境配置加載,不同環(huán)境部署的代碼會在提交階段根據(jù)環(huán)境配置動態(tài)生成。生產(chǎn)版本測試版本草稿版本復查人上線說明數(shù)上線檢查提交環(huán)境配置上線檢查重構測試-數(shù)據(jù)自測-能力介紹需求ID請輸入信息Owner請輸入信息日期范圍開-結新增測試新增測試測試ID創(chuàng)建日期測試表名需求IDOwner搜索重置-則名城不面代碼開發(fā)實時自測模塊實時自測模塊勾選自測規(guī)則輕量級自測一鍵質(zhì)量測試產(chǎn)出單次質(zhì)量一鍵提測按鈕一鍵提測按鈕測試規(guī)范測試規(guī)范通知QAQA測試Source參數(shù)合理性TM/JM資源推薦Source參數(shù)合理性報警配置報警配置Mini-Batch參數(shù)合理性部署-上線檢測-方案實現(xiàn)部署-上線檢測-方案實現(xiàn)數(shù)據(jù)數(shù)據(jù)寫出數(shù)據(jù)寫出數(shù)據(jù)檢查不通過,任務上線被阻斷,請修改任務配置再次嘗試遍歷篩選匹配規(guī)則流式任務上線杉遍歷篩選匹配規(guī)則結果結果是式中是式中式部署-發(fā)布管控-能力介紹部署-發(fā)布管控-能力介紹通知通知流水線編排插件集成觸發(fā)流水線流水線編排插件集成技術技術基于開放能力,進行發(fā)布流水線定義與編排部署-發(fā)布管控-方案實現(xiàn)采集抽樣新任務上線×原有任務迭代×新增指標×雙胞切換×值周運維×縮減資源×任務泊理×任務下線×DwD×DIM×DwsxAPP×ADS×ODs×DU3353否是時效性目標:5分鐘發(fā)現(xiàn),5分鐘響應處理,30分鐘恢復。基線操作GG黃鑫0915EECC'sink.metrics.bucketA規(guī)劃-需求管理開發(fā)-環(huán)境管理測試-數(shù)據(jù)自測100%管控部署-上線檢測/發(fā)布管控運維-基線監(jiān)控質(zhì)量質(zhì)量規(guī)劃規(guī)劃●自動容災入湖場景的應用實踐演講人|陳吉通(顧軒)阿里云高級開發(fā)工程師,DataXMaintainer02DataWorks數(shù)據(jù)集成入湖解決方案的架構和原理03DataWorks數(shù)據(jù)集成入湖場景的產(chǎn)品化案例分享04未來規(guī)劃Q發(fā)布阿里云正式對外(公有云、專有云)提供服務發(fā)布實時同步實時同步數(shù)據(jù)入湖彈性擴縮容2011201420192020數(shù)據(jù)平臺事業(yè)部成立同步中心公有云商業(yè)化獨享資源組發(fā)布新版引擎重構升級數(shù)據(jù)上云的核心樞紐:異構數(shù)據(jù)存儲、可靠、安全、低成本、可彈性擴展的數(shù)據(jù)同步平臺離線/實時全覆蓋支持離線同步,實現(xiàn)數(shù)據(jù)主動抽取離線/實時全覆蓋支持離線同步,實現(xiàn)數(shù)據(jù)主動抽取實時同步被動接受變更刷新,變更動態(tài)同步離線支持50+種數(shù)據(jù)源,實時支持10+種數(shù)據(jù)源支持復雜網(wǎng)絡無論數(shù)據(jù)源在哪里,公網(wǎng)、IDC、VPC內(nèi)等數(shù)據(jù)集成都具備成熟的辦法可以提供連接到數(shù)據(jù)源的網(wǎng)絡解決方案同步解決方案整庫遷移、批量上云增量同步、分庫分表一鍵實時全增量安全控制開發(fā)生產(chǎn)環(huán)境隔離數(shù)據(jù)源權限安全控制,可分享獨享資源組保障高可用運維監(jiān)控流量控制、臟數(shù)據(jù)控制資源組使用監(jiān)控任務告警設置,支持電話、短信、郵件、釘釘10萬億流量控制權限檢查權限檢查啟動集成任務開發(fā)態(tài)運行態(tài)開發(fā)態(tài)運行態(tài)基于基于FlinkCDC框架+DataX(重構后的新版流批一體同步引擎6整庫級別同步整庫級別同步性能成本Pkshuffle避免數(shù)據(jù)熱點DML/DDL全事件流解析功能特性豐富的T節(jié)點能力彈性擴縮容關系型數(shù)據(jù)庫關系型數(shù)據(jù)庫甲增量同步增量同步FlinkCDCSource事件解析數(shù)據(jù)分發(fā)表映射字符串替換Transformer算子阿里云DLF數(shù)據(jù)湖構建目的端數(shù)據(jù)湖獲取源表表結構映射目標表表結構、生成目標表建表語句映射目標表表結構、生成目標表建表語句·執(zhí)行目標表建表→→·完成全量數(shù)據(jù)遷移 對齊啟動點位啟動增量同步·全量初始化階段和業(yè)務高峰期需要較多的資源·全量初始化階段和業(yè)務高峰期需要較多的資源·數(shù)據(jù)集成需要支持資源的動態(tài)擴縮,達到動態(tài)調(diào)優(yōu)和節(jié)省資源。消息隊列消息隊列針對數(shù)據(jù)集成業(yè)務場景,利用AutoCopilot針對數(shù)據(jù)集成業(yè)務場景,利用AutoCopilot能力實現(xiàn)彈性擴縮容業(yè)務場景:客戶成本下降近50%客戶成本下降近50%未來規(guī)劃rrrDataScientistsMutabilitycauseddivergenceacrosClusterWorkerWorkerNodeManagerWorkerWorkerjobs鷹角基于Flink+Paimon+Trino朱正軍|鷹角大數(shù)據(jù)開發(fā)工程師鷹角數(shù)據(jù)平臺架構明日舟泡舊泡姆明日舟泡舊泡姆消息隊列數(shù)據(jù)同步消息隊列數(shù)據(jù)同步觀遠數(shù)據(jù)數(shù)據(jù)質(zhì)量平臺數(shù)據(jù)質(zhì)量平臺數(shù)據(jù)權限質(zhì)量管理平臺引擎PolarDB/Hologres(算法側)引擎引擎Trino1、實時入湖用戶門檻高2、歷史快照存儲成本高場景2、歷史快照存儲成本高戰(zhàn)3、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論