FFA2023云原生專場(chǎng)資料匯總_第1頁(yè)
FFA2023云原生專場(chǎng)資料匯總_第2頁(yè)
FFA2023云原生專場(chǎng)資料匯總_第3頁(yè)
FFA2023云原生專場(chǎng)資料匯總_第4頁(yè)
FFA2023云原生專場(chǎng)資料匯總_第5頁(yè)
已閱讀5頁(yè),還剩198頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

阿里云開(kāi)源大數(shù)據(jù)Serverless平臺(tái)負(fù)責(zé)人 ServerlessFlink正式上線集團(tuán)實(shí)時(shí)計(jì)算統(tǒng)一到BlinkServerlessFlink正式上線集團(tuán)實(shí)時(shí)計(jì)算統(tǒng)一到BlinkFlink資源管理2.0《Yarn和K8s分層混部》Flink資源管理3.0《基于K8s原生混部》Flink資源管理1.0《大規(guī)模實(shí)時(shí)任務(wù)調(diào)度》Flink資源管理1.0《大規(guī)模實(shí)時(shí)任務(wù)調(diào)度》WebServerTopiaAgentFlink流任務(wù)Flink批任務(wù)混部機(jī)器NodeManager混部機(jī)器TopiaServerResourceCalculatorPlAllocationServiceAPIServer WebServerTopiaAgentFlink流任務(wù)Flink批任務(wù)混部機(jī)器NodeManager混部機(jī)器TopiaServerResourceCalculatorPlAllocationServiceAPIServer AOPAOP:tensorflowonFlink非混部機(jī)器非混部機(jī)器ResourceManagerAgentAgent存儲(chǔ)存儲(chǔ)AppManagerTaskManagerDispatcherTaskManagerAppManagerTaskManagerDispatcherTaskManagerStatefulSetJobManagerDeploymeJobManagerDeploymentTaskManagerDispatcherJobManagerRestServerJobMasterTaskManagerTaskManagerDeployer-AppLifecycleJobManagerTaskManagerTaskManagerTaskManagerTaskManagerTaskManagerDispatcherJobManagerRestServerJobMasterTaskManagerTaskManagerDeployer-AppLifecycleJobManagerTaskManagerTaskManagerTaskManagerTaskManagerJobManagerJobManager2K8sApiServer21ClicommandJobManagerJobManager -AppLifecycle1.trytocontendperiodicallyrenew2.publishaddress3.retrieveandwatchJobManager(Leader)...1.trytocontend3.retrieveandwatchJobManager(Standby) 1.trytocontendperiodicallyrenew2.publishaddress3.retrieveandwatchJobManager(Leader)...1.trytocontend3.retrieveandwatchJobManager(Standby) CheckpointsTaskManager JobGraphsBlobFilesJobManagerConfigMap?LeaderaddressDispatcherConfigMap?LeaderaddressRestServerConfigMap?LeaderaddressResMngrConfigMap?Leaderaddress4.filereferences3.retrieveandwatch4.filereferencesTaskTaskManagerperiodicallyrenew3.retrieveandwatch1.trytocontend3.retrieveandwatchClusterConfigMap?JobManagerleaderaddressperiodicallyrenew3.retrieveandwatch1.trytocontend3.retrieveandwatchClusterConfigMap?JobManagerleaderaddressTaskManagerTaskManager1.trytocontendJobManager(Leader)JobManagerConfigMapJobManager(Leader)JobManagerConfigMap...JobJobManager(Standby)3.retrieveandwatch3.retrieveandwatchCheckpointsCheckpointsBlobFilesJobGraphsFlinkKubernetesOperator保證資源APIServer節(jié)點(diǎn)實(shí)時(shí)指標(biāo)Koordinator基于負(fù)載均衡的調(diào)度優(yōu)先級(jí)搶占DeschedulerKubelet保證資源APIServer節(jié)點(diǎn)實(shí)時(shí)指標(biāo)Koordinator基于負(fù)載均衡的調(diào)度優(yōu)先級(jí)搶占DeschedulerKubeletAllocationUsageKoordinator:JMTMTMJMTMTMTMJMJMTMTMJMTMTMTMJM JMTM TMTMTMTM彈性資源保證資源 JMTMJMJMNamespace-3NamespaceNamespace-3Namespace-2VirtualCluster:/kubernetes-sigs/cluster-api-provider-nested/tree/main/virtualclusterVPCEndpointVPCEndpointServicecn-Beijing-1/…AZ1AZ2AZ3VPCEndpointVPCEndpointServicecn-Beijing-1/…AZ1AZ2AZ3SG-WorkloadsAgent…SG-Workloads …SG-Workloads …SG-SystemAgentVirtualVirtualClusterBSG-Systemimageimageimageimageimageimage(PrivateLink)(PrivateZone)(PrivateLink)(PrivateZone)…………TenantBTenantAAgent…FullyManagedDataPlaneKafka…TenantBTenantAAgent…FullyManagedDataPlaneKafka……PortalPortalAccount,SellingAPIGatewayCloudManagerConsoleawsus-west-1/…ReadRead(S3/GCS/AzureBlobStorage)VirtualClusterBVirtualClusterAServerlessKubernetesVirtualClusterBVirtualClusterAServerlessKubernetescn-hangzhou/…9StarRocksVirtualClusterE神龍裸金屬節(jié)點(diǎn)BringYourOwnCloudBringYourOwnCloudManagedManagedKubernetesSyncStatus 0.1系列發(fā)布0.2系列發(fā)布0.3系列發(fā)布對(duì)外開(kāi)源誕生于阿里云誕生于阿里云Standalone部署正式捐贈(zèng)給ASF貢獻(xiàn)/使用的企業(yè):小米/Shopee/網(wǎng)易/丁香園/攜程/BIGO/B站/ebay/Kyligence/AWS/微博/小紅書/阿里/螞蟻/米哈游/B站/VIVO/LinkedIn/BOSS/同城旅行/知乎/亞信…服務(wù)端?集群狀態(tài)管理客戶端?管理當(dāng)前作業(yè)的Shufflemeta?Pushes/Fetchesshuffledata00001112200001112200Rescale121130ForwardBroadcastForwardRebalance000134ReducePartition詳細(xì)流程整體流程詳細(xì)流程獨(dú)立部署獨(dú)立部署21:19:4421:20:0121:19:4421:20:0121:19:5321:19:53worker:workerisstopped.worker:Regusterworkersuccessfuy.?順手來(lái)個(gè)starJ/apache/incubator-celeborn?FlinkHybridShuffle?Flink+ReducePartitionjarjar業(yè)提交側(cè)問(wèn)題提交側(cè)問(wèn)題優(yōu)化舉措優(yōu)化舉措回調(diào)狀態(tài)與提交日志共享存儲(chǔ)構(gòu)造集群IDapp-{時(shí)間戳}-作業(yè)數(shù)據(jù)庫(kù)ID掛載共享存儲(chǔ)檢查資源配額p個(gè)拒絕提交p個(gè)拒絕提交否資源配額下申請(qǐng)流程是否是否滿足資源是例如:http://例如:http://ostream-flink.oppoer.me/app-1699843678-22841/job-1http://ostream-flink.oppoer.me/xxxxxx/一job-2job-3apiVersionapiVersion:networking.k8s.io/v1metadata:name:kafka-ingressannotations:kubernetes.io/ingress.class:"nginx"nginx.ingress.kubernetes.io/rewrite-target:/$2spec:rules:-host:"ostream-flink.oppoer.me"paths:path:/app-1699843678-22841(/|$)(.*)backend:service:運(yùn)運(yùn)異常點(diǎn)r1.LostTaskmanager,已經(jīng)下線的TM通過(guò)日志平臺(tái)查詢收集的容器日志。2.PendingTaskmanager,尚未注冊(cè)的TM通過(guò)k8sAPI查看Pod的調(diào)度的event查看調(diào)度日志作業(yè)必須等到完整資源就位才會(huì)部署task缺乏響應(yīng)外部資源變化的接口,無(wú)法有作業(yè)必須等到完整資源就位才會(huì)部署task缺乏響應(yīng)外部資源變化的接口,無(wú)法有效應(yīng)對(duì)彈性伸縮的需求支持算子固定最大并發(fā)支持算子固定最大并發(fā)支持響應(yīng)外部資源變化的接口支持響應(yīng)外部資源變化的接口資源就位速度慢,先解析成資源就位速度慢,先解析成支持?jǐn)U縮的時(shí)候不丟不重支持?jǐn)U縮的時(shí)候不丟不重支持創(chuàng)建不同規(guī)格的支持創(chuàng)建不同規(guī)格的TM預(yù)計(jì)算Taskmanager的數(shù)接口伸縮參數(shù)強(qiáng)clinetAdaptiveSchedule是rescaleTaskExecutorescaleTaskExecutorcancelTasksgoToRestartingcancelTasksgoToRestarting長(zhǎng)>依據(jù)作業(yè)拓?fù)渲忻總€(gè)算子真實(shí)的負(fù)載來(lái)決定其真實(shí)的并行度。target_parallelism=scale_factor*cuuenrt_parallelism指標(biāo)名稱(單位:條/秒)算子的目標(biāo)負(fù)載(target_load)(current_true_processing_capacity)其值可以通過(guò)(current_processing_capacity*target_load)/current_load得到;(target_data_processing_capacity):算子的伸縮因子(scale_factor)target_data_processing_capacity/current_true_processing_capacitybackpressure1%backpressure1%40/((100/0.75)0.5)=0.262 2......>在平臺(tái)提供了用戶開(kāi)啟彈性伸縮的前端頁(yè)面,也給出了常用的默認(rèn)設(shè)置>如下圖所示,在CPU利用率大于70%并持續(xù)5分鐘的時(shí)候,開(kāi)啟擴(kuò)容,在CPU利用率小于30%并持續(xù)5分鐘的時(shí)候,支持的規(guī)則支持的規(guī)則üset'table.exec.source.force-break-chain'='tr1.支持以插件的方式,加載作業(yè)歸檔的實(shí)現(xiàn)。歸檔方式更加靈活,不在限于hdfs1.支持以插件的方式,加載作業(yè)歸檔的實(shí)現(xiàn)。歸檔方式更加靈活,不在限于hdfs2.改netty-web為spring-bot,提升訪問(wèn)性能3.Suspend狀態(tài)也可以歸檔。4.真正running之前的異常也支持歸檔歷史服務(wù)插件化歷史服務(wù)插件化作業(yè)歷史作業(yè)歷史異常接入異常接入gpt/cubefs/compass資源診斷,參數(shù)調(diào)優(yōu)異常診斷,解決方案王世濤|貨拉拉大數(shù)據(jù)實(shí)時(shí)離線平臺(tái)負(fù)責(zé)人陳海晴|貨拉拉大數(shù)據(jù)海外實(shí)時(shí)平臺(tái)負(fù)責(zé)人 ?torrent任務(wù)狀態(tài)機(jī)增加資源申請(qǐng)狀態(tài)??torrent任務(wù)狀態(tài)機(jī)增加資源申請(qǐng)狀態(tài)?operator使用推拉模式進(jìn)行狀態(tài)同步?使用k8s的taints,nodeSelector,nodeAffinity進(jìn)行約束task-state-managercrd-manager基礎(chǔ)服務(wù)節(jié)點(diǎn)組基礎(chǔ)服務(wù)基礎(chǔ)服務(wù)節(jié)點(diǎn)組基礎(chǔ)服務(wù)X86節(jié)點(diǎn)組任任核心任任 ?任務(wù)日志采集?任務(wù)指標(biāo)采集?f任務(wù)ui可視化?任務(wù)日志采集?任務(wù)指標(biāo)采集?f任務(wù)ui可視化?operator指標(biāo)采集?torrent指標(biāo)采集task-log-appenderalarm-gatewaytask-rulealarm-gateway metrics-serviceflink-task?多種指標(biāo)輔助任務(wù)運(yùn)維?使用歷史統(tǒng)計(jì)指標(biāo)進(jìn)行縮容?多種指標(biāo)輔助任務(wù)運(yùn)維?使用歷史統(tǒng)計(jì)指標(biāo)進(jìn)行縮容?使用歷史統(tǒng)計(jì)指標(biāo)高峰來(lái)臨前擴(kuò)容?單任務(wù)縮容下,聯(lián)動(dòng)處理其他任務(wù)task-scheduletask-restarttask-cronsystem-ruletask-scheduletask-restarttask-cronsystem-ruletask-computetask-rule狀態(tài)狀態(tài)觀測(cè)性存儲(chǔ)服務(wù)flink-taskmigrate-managermigrate-ruleflink版本升級(jí)migrate-quota協(xié)調(diào)資源狀態(tài)觀測(cè)性存儲(chǔ)服務(wù)?制定和自動(dòng)推進(jìn)遷移計(jì)劃?使用可視化工作流編排單任務(wù)遷移流程?遷移流程考慮任務(wù)穩(wěn)定性和集群資源使用率hbase-rsb?支持hbase-rsb?支持mem/rocksdb-cache?支持redis/hbase-remote-state?支持remote-statecrudremote-state-managerflink-sql-gateway?支持mem/rocksdb-cache加速?支持mem/rocksdb-cache加速?支持mem/rocksdb/remote多層存儲(chǔ)reloadmem-cache(k,v)rocksdb-cache(k,v)mem-cache(k,v)?支持根據(jù)狀態(tài)特性使用不同的模式?支持mem/rocksdb緩存參數(shù)調(diào)整remote-state-backendjdbc?支持多集群rsbremote-state-backendjdbc?支持多集群rsb管理?支持狀態(tài)crud?支持狀態(tài)修改管控remote-state-managermetadata-serviceflink-sql-gateway-service反序列化udfflink-stateful-function-service序列化udftask-tm-operatortask1-tm-operator?task-tm-operatortask1-tm-operator?支持多集群?支持和原生模式切換datametadatatask1-tm-operatorrsb-clienttask1-tm-operatorrsb-client?支持多集群?使用version托管cptask2-tm-operatorhbase-remote-state-backendmetadatatabletask-state-locationtable1:taskid1cf:operatorversion:cp1,cp2,cp3table2:taskid2cf:operatorversion:cp1,cp2,cp3,cp4remote-stateremote-stateflink-stateful-funciton-service更好的資源隔離更精準(zhǔn)的壓測(cè)任務(wù)效果更便捷的鏡像管理穩(wěn)定性更短的cp周期(hbase-remote-state)更快的state-rescala...?收斂重復(fù)請(qǐng)求,比如增加分區(qū)操作...?增加緩存能力,比如緯表加載flink-stateful-function...更快的縮容 更大的資源池(在離線)成本更高效使用多機(jī)器間硬件資源 remote-state更精細(xì)化的TTL,減少無(wú)效TTL的占用更少重復(fù)的狀態(tài)/指標(biāo)存儲(chǔ)flink-taskstate-backendredis/hbase業(yè)務(wù)指標(biāo)flink-taskremote-statebackend service?支持redis指標(biāo)和狀態(tài)共享?支持hbase指標(biāo)和狀態(tài)共享陳政羽|ApacheFlink/StreamPark FlinkKubernetesOperator是一款云原生應(yīng)用,其主要功能是管理、檢測(cè)和監(jiān)控Flink作業(yè)的部署狀態(tài)。在沒(méi)有Operator的情況下,用戶需要對(duì)Flink的部署流程有一定的了解才能完成完整的業(yè)務(wù)開(kāi)發(fā),包括啟動(dòng)集群、部署作業(yè)和升級(jí)作業(yè)。當(dāng)在這些過(guò)程中出現(xiàn)問(wèn)題時(shí),用戶必須對(duì)Flink有相對(duì)深入的了解,才能解戶的這些繁瑣流程,其主要目標(biāo)是實(shí)現(xiàn)這些流程的自動(dòng)化,讓用戶無(wú)需關(guān)心內(nèi)部細(xì)節(jié)即可完成Flink作業(yè)的作業(yè)全自動(dòng)運(yùn)維基于K8S云原生環(huán)境作業(yè)根據(jù)負(fù)載自動(dòng)調(diào)整并行度用戶可以使用Kubernetes命令行工具定義一個(gè)Flink作業(yè)資署狀態(tài)和作業(yè)運(yùn)行狀態(tài)apiVersion:/v1beta1metadata:namespace:defaultname:basic-examplespec:image:flink:1.17flinkVersion:v1_17flinkConfiguration:taskmanager.numberOfTaskSlots:"2"jobManager:resource:cpu:1taskManager:resource:cpu:1job:jarURI:local:///opt/flink/examples/streaming/StateMachineExample.jarparallelism:2state:running社區(qū)用戶訴求:作業(yè)自動(dòng)調(diào)優(yōu)的目標(biāo)比較

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論