




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
的智能化水平取決于其對(duì)算力的利用能力。云計(jì)算為智算時(shí)代帶來(lái)無(wú)限可能, 第一章容器產(chǎn)品最新發(fā)布阿里云ACK新升級(jí),打造智算時(shí)代的現(xiàn)代化應(yīng)用平臺(tái)持,確保了賽事系統(tǒng)萬(wàn)無(wú)一失?!?788越來(lái)越多的ACK客戶(hù)選擇倚天芯片作為新算力選即時(shí)彈性完全兼容現(xiàn)有節(jié)點(diǎn)池能力和使用習(xí)慣,可以配合托管節(jié)點(diǎn)池實(shí)現(xiàn)節(jié) .在全面兼容Kubernetes現(xiàn)有調(diào)度能力基礎(chǔ)上提供批量任務(wù)的調(diào)度元語(yǔ),如Gang告警等。然后會(huì)基于大模型進(jìn)行數(shù)據(jù)分析與歸集,給出當(dāng)前問(wèn)題的可能原因與修復(fù)方案。萬(wàn)元/月。兩全其美:Sidecarless與Sidecar模式 正如一個(gè)文明社會(huì)的科技水平取決于其對(duì)能源的利用能力,企業(yè)的智能化水平取決于其對(duì)容器服務(wù)典型企業(yè)案例云原生場(chǎng)景下月省10萬(wàn)元資源成本,這家企業(yè)做對(duì)了什么 本次分享的企業(yè)是中國(guó)領(lǐng)先的以人工智能和機(jī)器學(xué)習(xí)為基礎(chǔ)的科技型量化投資公司,使用.穩(wěn)定的系統(tǒng)應(yīng)用 高的資源利用率,但大量小規(guī)模應(yīng)用使用大量閑置資源。傳統(tǒng)部署模型下的資源成本統(tǒng)計(jì).歸因到業(yè)務(wù)應(yīng)用/個(gè)人的監(jiān)控大盤(pán)這里的路徑在跨部門(mén)的協(xié)同關(guān)系上反而是至下而上反方向的。Infra團(tuán)隊(duì)就算找到對(duì)應(yīng)的成本治理方面的工作經(jīng)驗(yàn),幫助其他互聯(lián)網(wǎng)金融客戶(hù)等云上客戶(hù)更好地建設(shè)FinOps體系?!鄙钊霚贤?、了解企業(yè)對(duì)于容器成本治理的需求和問(wèn)題自動(dòng)彈性策略、或通過(guò)混部場(chǎng)景的動(dòng)態(tài)資源超賣(mài)等提高資源利用率。在不感知業(yè)務(wù)的情況平衡過(guò)冗余時(shí)的浪費(fèi)且保證過(guò)度超賣(mài)的穩(wěn)定性的推薦算法。我們的推薦算法主要考慮了以.使用多種資源維度進(jìn)行統(tǒng)計(jì),并使用類(lèi)似分位數(shù)的統(tǒng)計(jì)方法區(qū)分應(yīng)用突發(fā)峰值需求和度也是為了享受集群池化的資源帶來(lái)的資源利用率提同時(shí)我們也提供一些領(lǐng)域垂直的彈性伸縮解決方案,如業(yè)務(wù)事件驅(qū)動(dòng)的Keda、以及米哈游大數(shù)據(jù)云原生實(shí)踐始選擇擁抱云原生,并開(kāi)始將AI、大數(shù)據(jù)等類(lèi)型的企業(yè)應(yīng)用部署運(yùn)行在云原生之上。以 方式。架構(gòu)設(shè)計(jì)依據(jù)的原理是,不同的業(yè)務(wù)系統(tǒng)會(huì)有不同的業(yè)務(wù)高峰時(shí)間。大數(shù)據(jù)離線(xiàn)業(yè) 該架構(gòu)的優(yōu)點(diǎn)是可以通過(guò)在離線(xiàn)業(yè)務(wù)的混合部署和錯(cuò)峰運(yùn)行,來(lái)提升機(jī)器資源利用率并降 Apiserver按需申請(qǐng)Executor,并由Executor去執(zhí)行具體的Task 符合用戶(hù)的習(xí)慣,但是不方便進(jìn)行作業(yè)狀態(tài)跟蹤和管理,無(wú)法自動(dòng)配置SparkUI的在生產(chǎn)環(huán)境上,我們采用spark-k8s-cli的方式進(jìn)行任務(wù)的提交。spark-k8.支持按照不同部門(mén)或業(yè)務(wù)線(xiàn),對(duì)大規(guī)模補(bǔ)數(shù)任務(wù)進(jìn)行限流和管控功能 彈性容器實(shí)例ECI是一種Serverless容器運(yùn)行服務(wù),ECI和EC 查詢(xún)服務(wù)。在早期,我們的Spark 由于總?cè)蝿?wù)量較大,且Hive任務(wù)也在不斷遷移至Spark,目前仍然有部分任務(wù)運(yùn)行在在上線(xiàn)初期任務(wù)量較少時(shí),SparkOperator服務(wù)運(yùn)行良好,但隨著任務(wù)不斷增多,Operator處理各類(lèi)Event事件的速度越來(lái)越慢,甚至集群出現(xiàn)大量的ConfigMap、Ingress、Service等任務(wù)運(yùn)行過(guò)程中產(chǎn)生的資源無(wú)法及時(shí)清理導(dǎo)致堆積的情況,新提交 Spark任務(wù)在啟動(dòng)Driver時(shí),會(huì)創(chuàng)建對(duì)Executor的事件監(jiān)聽(tīng)器,用于實(shí)時(shí)獲取所有 此我們的解決方案如下:鐘請(qǐng)求一次ExecutorPod的創(chuàng)建也可能會(huì)由于Quota鎖沖突而失敗,這種情況可以不用處理,練一次千億參數(shù)量模型的成本可能就高達(dá)百萬(wàn)美元,依然有很多企業(yè)希望擁有自己的專(zhuān)屬習(xí)習(xí)務(wù)原取勢(shì)到化力參人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)習(xí)務(wù)原取勢(shì)到化力參人工智能機(jī)器學(xué)習(xí)深度學(xué)?AI在計(jì)算機(jī)視覺(jué)、語(yǔ)音、NLP等領(lǐng)域得突破,已深入影響各行各業(yè)?AI服上云形成趨?深度學(xué)/AIGC應(yīng)用廣泛采用容器等云生技術(shù)AP5ARA云棲大會(huì)發(fā)人工智能(AI)展概述發(fā)NewNewFutureonCloud深度學(xué)習(xí)的特點(diǎn)?端端流水線(xiàn)–Rawdatain,executablemodelout?任務(wù)長(zhǎng)時(shí)運(yùn)行–小時(shí)/天/周?持續(xù)迭代優(yōu)–梯度下降,超數(shù)調(diào)優(yōu),Prompt工程?消耗大量算和海量數(shù)據(jù)APSARA云棲大會(huì)為習(xí)以深度學(xué)代表的為習(xí)OS、Nvidia驅(qū)、CUDA、cuDNN等環(huán)境?NVIDIADriver367,370;CUDAToolkit7.5,8.0;cuDNN5.軟件的依賴(lài)系?Python,GCC,Bazel…GPU用率如資源分配策略多樣?GPU型更新頻繁?應(yīng)用要指定張或多張GPU?甚至要使用一張GPU的部資源GPU運(yùn)維復(fù)雜?監(jiān)控維度多?故障排查難?彈性不靈活我的GPU還正常工作嗎?如何提GPU還有多少GPU空閑?復(fù)雜、多、低效卡分動(dòng)關(guān)卡單利升卡變?yōu)榱?wù)單參利?工程效率:持續(xù)快速迭代?資源效率為力務(wù)單參利?工程效率:持續(xù)快速迭代?資源效率:高用率、可擴(kuò)展規(guī)模性能力務(wù)儲(chǔ)?算:千卡GPU任,萬(wàn)卡集群?數(shù)據(jù):PB級(jí)存,TB級(jí)吞吐?網(wǎng)絡(luò):800Gbps~3.2TbpsRDMA務(wù)化優(yōu)分?訓(xùn)練:布式,混合并行?推理:模型、服QoSAP5ARA云棲大會(huì)大模型對(duì)基礎(chǔ)設(shè)施帶來(lái)更多挑戰(zhàn)?大模型對(duì)基礎(chǔ)設(shè)施服能的挑戰(zhàn)是階躍式的。效率效率卡千GPT3:175B數(shù),次訓(xùn)練使用45TB數(shù)據(jù),近A100/1個(gè)月卡千化到到發(fā)到傳統(tǒng)架構(gòu)?資源管理分化到到發(fā)到傳統(tǒng)架構(gòu)?資源管理分散?生產(chǎn)流程割裂、效率低?團(tuán)隊(duì)協(xié)作、共享困難AP5ARA云棲大會(huì)勢(shì)原為基于容器的AI/大數(shù)據(jù)成云生時(shí)勢(shì)原為AI工程向云原生架構(gòu)演進(jìn)從無(wú)狀態(tài)應(yīng)用,企業(yè)核心應(yīng)用,AI工程向云原生架構(gòu)演進(jìn)云原云原生架構(gòu)?資源池化:彈性、靈活?生產(chǎn)流程高效閉環(huán)?多角色協(xié)同,加速迭代更快的創(chuàng)新和迭代交付更高的穩(wěn)定性要求更彈性的算力需求?Gartner預(yù)測(cè):2023年70%的AI應(yīng)用是基于容器和Serverless技術(shù)開(kāi)。?IDC預(yù)測(cè):By2025,Nearly50%ofAllAcceleratedInfrastructureforPerformance-IntensiveComputing(AI,HPC,andBigDataAnalytics)willBeCloudBasedasTheseSystemsAreIncreasinglyIntegratedwithEnterpriseSoftware.用、微服務(wù)等領(lǐng)域都在從傳統(tǒng)架構(gòu)轉(zhuǎn)向云原生架構(gòu)?;ヂ?lián)網(wǎng)應(yīng)用大多是基于容器、統(tǒng)一任務(wù)統(tǒng)一任務(wù)流程提AI工程效率統(tǒng)一任務(wù)調(diào)度保障規(guī)模與性能統(tǒng)一資源管理持續(xù)優(yōu)化利用率升AP5ARA云棲大會(huì)原原充用云的資源彈性充用云的資源彈性、異構(gòu)算、便捷服以容器、自、微服等云生技術(shù)手段,AI/ML提供工程效率高、成本低、擴(kuò)展、復(fù)的端端解方案。務(wù)制可化務(wù)化動(dòng)力可及到利分決原為統(tǒng)一管理統(tǒng)一管理AI等異構(gòu)工作負(fù)載算法和場(chǎng)景框架統(tǒng)一工作流,統(tǒng)一調(diào)度異構(gòu)資源AI模型生產(chǎn)流水線(xiàn)AI模型生產(chǎn)流水線(xiàn)工程效率最大化支持AIGC/LLM等新范式快速迭代創(chuàng)新速度最大化圍繞這兩個(gè)核心場(chǎng)景,可以擴(kuò)展出更多用戶(hù)定制化場(chǎng)景,比如構(gòu)建符合用戶(hù)使用習(xí)慣的AP5ARA云棲大會(huì)力主原力主原異構(gòu)資源管理異構(gòu)資源管理資源效率最大化另一個(gè)主要能力是能夠在分鐘級(jí)內(nèi)準(zhǔn)備好開(kāi)發(fā)環(huán)境和集群測(cè)試環(huán)境,幫助算法工程師開(kāi)始務(wù)開(kāi)源AI能力阿里云提供和支撐的AI平臺(tái)與服務(wù)AI平臺(tái)/服務(wù)開(kāi)源AI能力阿里云提供和支撐的AI平臺(tái)與服務(wù)AI平臺(tái)/服云原生AI基礎(chǔ)設(shè)施層容器平臺(tái)基礎(chǔ)資源層云IDC AP5ARA云棲大會(huì)原原分云原生AI系統(tǒng)層架構(gòu)分參考實(shí)現(xiàn)-阿里云ACK云原生AI套件生態(tài)集成生態(tài)集成ACKACK云原生AI套件大模型訓(xùn)練推理框架支持任務(wù)調(diào)度和隊(duì)列數(shù)據(jù)&模型訪(fǎng)問(wèn)加速模型&Prompt管理開(kāi)源大模型驗(yàn)證高性能智算集群交叉技術(shù)領(lǐng)域。后續(xù)我們將轉(zhuǎn)向更為具體的技術(shù)層面,介紹已經(jīng)落地并相對(duì)成熟的一些云節(jié)點(diǎn)視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?GPUTemperature?Powerusage?節(jié)點(diǎn)視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?GPUTemperature?Powerusage?Total/allocatedGPU.應(yīng)用視角監(jiān)控指標(biāo):?GPUdutycycle?GPUmemoryusage?AllocatedGPU應(yīng)用實(shí)例伸縮Kubernetes資源節(jié)點(diǎn)伸縮?最后一層是通過(guò)統(tǒng)一的工具鏈和標(biāo)準(zhǔn)API向上提供所有這些能力,并與內(nèi)外部生態(tài)集AP5ARA云棲大會(huì)原原動(dòng)內(nèi)分加?GPU多維度監(jiān)控,使用和健康狀況一動(dòng)內(nèi)分加?置NPD,自動(dòng)檢測(cè)和告警設(shè)備異常?自彈性伸縮,自定義伸縮指標(biāo)和策略?支持GPU競(jìng)價(jià)實(shí)例,ECI彈性容器實(shí)例?將RDMA網(wǎng)絡(luò)資源作為K8s集群資源調(diào)度和管理?支持NvidiaNCCL,GPUDirectoverRDMA,速布式AI訓(xùn)練利升力力義升利?利升力力義升利?業(yè)界首款K8sGPU共享調(diào)度方案,應(yīng)用代碼零侵入?支持所有NvidiaGPU型號(hào)的自定顯存、算共享,結(jié)合cGPU技術(shù)支持顯存,算和錯(cuò)誤隔離,同時(shí)避免虛擬化開(kāi)銷(xiāo)?GPU用率提100%以上AP5ARA云棲大會(huì)原原GPUSharing&Isolation2.持續(xù)提GPU用率2.持續(xù)提GPU用率發(fā)動(dòng)務(wù)卡之包分利化?自現(xiàn)多GPU/服器/機(jī)架間的通信鏈路,括NvidiaP2P/發(fā)動(dòng)務(wù)卡之包分利化?調(diào)度器自動(dòng)選擇最大帶寬的通信鏈路,實(shí)現(xiàn)分布式訓(xùn)練加速?支持Gang/Binpack配策略,最大用率,同時(shí)避免資源碎片GPUShareScheduler務(wù)PMPIKube-Scheduler務(wù)PMPIKube-Scheduler/kubernetes-sigs/scheduler-plugins/kube-queue/kube-queue調(diào)高A支持10多種任調(diào)度策略AP5ARA云棲大會(huì)原原務(wù)務(wù)侵列務(wù)原務(wù)義區(qū)?擴(kuò)展Kubernetes調(diào)度器框架,生實(shí)現(xiàn)Batch調(diào)度,任隊(duì)侵列務(wù)原務(wù)義區(qū)?支持Gang,Capacity,PriorityQueue,Fair,Topology等復(fù)雜場(chǎng)景,擴(kuò)展K8s滿(mǎn)足大規(guī)模AI/大數(shù)據(jù)/HPC任調(diào)度?有效解決資源碎片浪費(fèi)、作業(yè)擠占、租戶(hù)公平性、動(dòng)態(tài)負(fù)載感知、數(shù)據(jù)親和性、資源預(yù)留等分布式系統(tǒng)資源分配難題?與社共推Batch工作組,定BatchJob,Queue等Spec動(dòng)動(dòng)務(wù)發(fā)兼利減利升動(dòng)發(fā)動(dòng)動(dòng)務(wù)發(fā)兼利減利升動(dòng)發(fā)變化 量調(diào)度或任務(wù)級(jí)別調(diào)度策略插件貢獻(xiàn)給上游開(kāi)源社區(qū),并已被眾多社區(qū)用戶(hù)使用。例如AP5ARA云棲大會(huì)原原ETOperator/AliyunContainerService/et-operator4.彈性伸縮分布式ETOperator/AliyunContainerService/et-operator?自現(xiàn)、適配訓(xùn)練節(jié)點(diǎn)數(shù),觸計(jì)算和通信鏈路調(diào)整?支持手/自擴(kuò)、縮容訓(xùn)練任,支持容錯(cuò)?支持競(jìng)價(jià)實(shí)例,便于GPU舊,大幅節(jié)省AI訓(xùn)練成本?提集群用率,小節(jié)點(diǎn)故障影響,顯著減少作業(yè)啟動(dòng)等待時(shí)間?支持CV/NLP/推薦類(lèi)模型,容HorovodElasticAPI,ElasticTorch,Tensorflow,DLRover等框架在解決了任務(wù)調(diào)度的問(wèn)題后,我們將探討如何將訓(xùn)練任務(wù)或推理服務(wù)與云資源的彈性相結(jié)加訓(xùn)性dCNCFSandbox項(xiàng)目/fluid-cloudnative/fluidK8s的存儲(chǔ)視角Fluid的數(shù)據(jù)使用視角CSICSIIDC/VPC加訓(xùn)性dCNCFSandbox項(xiàng)目/fluid-cloudnative/fluidK8s的存儲(chǔ)視角Fluid的數(shù)據(jù)使用視角CSICSIIDC/VPCOSSNode1Node2彈性訓(xùn)練的收益會(huì)相對(duì)明顯,尤其是在使用競(jìng)價(jià)實(shí)例的場(chǎng)景下。雖然競(jìng)都不會(huì)被浪費(fèi)。這是一種非常有趣且富有挑戰(zhàn)的AP5ARA云棲大會(huì)原原可加可可務(wù)制加減動(dòng)壓力FluidDataset管理計(jì)算任使用數(shù)據(jù)的生命周期,使不同存儲(chǔ)源的數(shù)據(jù)在K8s中管理可加可可務(wù)制加減動(dòng)壓力排調(diào)度。?克服存算分離架構(gòu)帶來(lái)的數(shù)據(jù)訪(fǎng)問(wèn)延遲?顯著速AI等數(shù)據(jù)密集計(jì)算30%以上,小遠(yuǎn)程I/O帶寬?適配公有云、私有云、混合云,多存儲(chǔ)類(lèi)型,多數(shù)據(jù)源統(tǒng)一管理?緩存數(shù)據(jù)訪(fǎng)問(wèn)控、數(shù)據(jù)感知調(diào)度、緩存自彈性伸縮128128GPU50%FluidvsOSSFS(20Gb/s)務(wù)加務(wù)加 通過(guò)分布式緩存加速技術(shù),我們可以顯著提高分布式訓(xùn)練的效率,如右下角所示的),AP5ARA云棲大會(huì)原原5.2Fluid速大模型推理服啟動(dòng)4504003503002502000單加單加-67%-86%85%-85%Llama-30BLlama-30B務(wù)發(fā)Arena/kubeflow/arena開(kāi)數(shù)據(jù)務(wù)發(fā)Arena/kubeflow/arena開(kāi)數(shù)據(jù)訓(xùn)練評(píng)估推理#提交分布式訓(xùn)練任務(wù)arenasubmitmpijob--name=tf-dist-data--workers=6--gpus=2--data=tfdata:/data_dir–rdma--gang\--env=num_batch=100--env=batch_size=80--tensorboard--image=ali-tensorflow:gpu-tf-1.6.0\"/root/hvd-distribute.sh122”我們不僅將Fluid彈性數(shù)據(jù)集加速的能力應(yīng)用于分布式訓(xùn)練場(chǎng)景,也可以將其應(yīng)用大模型AP5ARA云棲大會(huì)原原壓分發(fā)分口臺(tái)務(wù)務(wù)制務(wù)兼?Arena覆蓋AI壓分發(fā)分口臺(tái)務(wù)務(wù)制務(wù)兼?屏蔽所有資源、K8s集群、運(yùn)行環(huán)境管理、任調(diào)度、GPU配和監(jiān)控等底層復(fù)雜性?容多種計(jì)算框架–Jupyter,Tensorflow,Pytorch,MPI,Hovorod,DeepSpeed,Megatron-LM,Spark等?提供CLI,go/java/pythonSDK和WebUI控,統(tǒng)一接,三端互通ArenaArena命周期AAa,命周期AAa,AP5ARA云棲大會(huì)原原6.2支持從 到 到模型模型務(wù)務(wù)DataScientistContinuousTraining Melele MelelelMulti-versionmodelsKubernetesfortraining 1.arenasubmitOperatorUpdatingmodelforinference2.arenaservetensorflow3.arenaservetraffic-router-splitApplicationsREST3.arenaservetraffic-router-splitApplicationsRESTAPIorgRPC7%3%Kubernetesforserving7%3%90%主3提升20%主3提升20%提升30%AP5ARA云棲大會(huì)原原6.Arena支持Arena支持推理AP5ARA云棲大會(huì)原原準(zhǔn)力化化基于標(biāo)Kubernetes,提供組件能,全棧優(yōu)AI生產(chǎn)系統(tǒng)的性能準(zhǔn)力化化原原建設(shè)成果建設(shè)成果AP5ARA云棲大會(huì)臺(tái)化原任意門(mén):臺(tái)化原客戶(hù)痛點(diǎn)客戶(hù)痛點(diǎn)方案亮點(diǎn)方案亮點(diǎn)客戶(hù)證言客戶(hù)證言AP5ARA云棲大會(huì)臺(tái)臺(tái)習(xí)小米機(jī)器學(xué)平:基于Fluid的Serverless混合云容器AI臺(tái)臺(tái)習(xí)xleoml小米機(jī)器學(xué)習(xí)平臺(tái)(CloudML)承載了圖像、NLP、聲學(xué)、搜索推薦等應(yīng)用業(yè)務(wù),是小米針對(duì)機(jī)器學(xué)習(xí)進(jìn)行全流程優(yōu)化的高性能、分布式云服務(wù)??蛻?hù)痛點(diǎn)客戶(hù)痛點(diǎn)方案亮點(diǎn)方案亮點(diǎn)發(fā)制臺(tái)AI開(kāi)控發(fā)制臺(tái)AI開(kāi)控開(kāi)發(fā)、調(diào)試提交、管理訓(xùn)練任務(wù)定時(shí)服務(wù)工作流編排模型評(píng)測(cè)一鍵發(fā)布服務(wù)控制臺(tái)集群大盤(pán)GPU大盤(pán)用戶(hù)權(quán)限配額管理作業(yè)大盤(pán)成本分析數(shù)據(jù)集一鍵速加AP5ARA云棲大會(huì)原原11223344加創(chuàng)管理員建ACK集群,添GPU節(jié)點(diǎn)加創(chuàng)原管理員一鍵選擇安裝ACK云生AI套件原務(wù)算法工程師向ACK集群提交模型訓(xùn)練任務(wù)AI平臺(tái)運(yùn)維人員將訓(xùn)練好的模型在ACK集群中發(fā)布為線(xiàn)上推理服務(wù)AP5ARA云棲大會(huì)原原兩類(lèi)角色通過(guò)命令行工具兩類(lèi)角色通過(guò)命令行工具和控制臺(tái)簡(jiǎn)便操作,高效協(xié)同用戶(hù)volumevolume原80%30%原80%30%微信AP5ARA云棲大會(huì)原助力原助力20%入歡迎掃碼群與我們交流入云原生場(chǎng)景下,AIGC模型服務(wù)的工程挑戰(zhàn)和應(yīng)對(duì)為大模型的成本挑戰(zhàn)在于模型規(guī)模越來(lái)越大,使用的資源越來(lái)越多,而模型的運(yùn)行平臺(tái)接著就是好:用戶(hù)使用復(fù)雜不?用戶(hù)代碼是否需要相應(yīng)的修改。運(yùn)維團(tuán)隊(duì)工作量大嗎?模 4)隨處運(yùn)行,與Kubernetes運(yùn)行時(shí)平臺(tái)無(wú)關(guān):可以支持原生、邊緣、Serverless幫您實(shí)現(xiàn)需要的時(shí)候可以彈出來(lái)不用的時(shí)候縮并自動(dòng)創(chuàng)建一個(gè)PVC。而對(duì)于想要訪(fǎng)問(wèn)這個(gè)模型數(shù)據(jù)的推理應(yīng)用來(lái)說(shuō),只需要掛載這個(gè) Kubernetes由于其易用性、低負(fù)擔(dān)的好處,已經(jīng)越來(lái)越多的成為用戶(hù)的選擇;但是這里講的是如何提供高性能。為什么需要彈性伸縮的計(jì)算側(cè)分布式緩存?只是使用簡(jiǎn)單的集群內(nèi)可以彈性伸縮的可用帶寬,這個(gè)可用帶寬的大小取決于你分布式緩存的節(jié)點(diǎn)數(shù)量。介紹完如何提升性能之后,接下來(lái)考慮的問(wèn)題就是如何在盡可能節(jié)省成本的前提下最大化統(tǒng)準(zhǔn)備數(shù)據(jù)緩存的過(guò)程,對(duì)于這些流程我們用數(shù)據(jù)操作抽象以及數(shù)據(jù)流編排能力去幫助用 觀(guān)察服務(wù)的就緒時(shí)間,我們可以看到部署只花了22秒。我們還可以嘗試對(duì)現(xiàn)有的阿里云ACK云上大規(guī)模Kubernetes集群高可靠性保障apiserver/etcd/scheduler/kube-controller-manger/cloud-controller-manager。我們已經(jīng)了解了K8s集群架構(gòu),那么如何評(píng)估K8s集群的穩(wěn)定性呢?集群穩(wěn)定性涵蓋請(qǐng)求來(lái)源復(fù)雜。包括隨節(jié)點(diǎn)規(guī)模正增長(zhǎng)的kubelet/kube-proxy/daemonset,也包括系 a.高可用架構(gòu)c.集群容量規(guī)劃和自動(dòng)彈性f.數(shù)據(jù)面優(yōu)化控制面實(shí)現(xiàn)可用區(qū)級(jí)別高可用全部控制面組件實(shí)現(xiàn)與阿里云ECS的可用區(qū)能力對(duì)齊的控制面實(shí)現(xiàn)可用區(qū)級(jí)別高可用全部控制面組件實(shí)現(xiàn)與阿里云ECS的可用區(qū)能力對(duì)齊的高c.托管組件可觀(guān)測(cè)性透出.集群檢查,定位運(yùn)維操作前的檢查。例如企業(yè)在業(yè)務(wù)升級(jí)過(guò)程中經(jīng)常遇到的K8s版本.自愈是指自動(dòng)修復(fù)運(yùn)行時(shí)和內(nèi)核問(wèn)題。例如發(fā)現(xiàn)NotReady的節(jié)點(diǎn),并治愈恢復(fù)為基于阿里云ACK與ACR構(gòu)建企業(yè)級(jí)端到端DevSecOps流程安全一直是企業(yè)上云關(guān)注的核心問(wèn)題。隨著云原生對(duì)云計(jì)算基礎(chǔ)設(shè)施和企業(yè)應(yīng)用架構(gòu)的重為此,企業(yè)安全人員需要針對(duì)云原生時(shí)代的安全挑戰(zhàn)重新進(jìn)行系統(tǒng)性的威脅分析并的安全產(chǎn)品能力構(gòu)建端到端的DevSecOps流程,維持企業(yè)應(yīng)用全生命周期的持續(xù)安全水其中第一部分會(huì)介紹當(dāng)下云原生安全的現(xiàn)狀以及企業(yè)應(yīng)用在云原生化轉(zhuǎn)型中面臨的主要安在第二部分中會(huì)概要性介紹云原生安全相對(duì)成熟的一.云原生平臺(tái)基礎(chǔ)設(shè)施架構(gòu):云原生平臺(tái)層組件相較于傳統(tǒng)架構(gòu)引入了更多的配置項(xiàng)和用系統(tǒng)的安全審計(jì)和監(jiān)控能力,這些新的挑戰(zhàn)都需要云服務(wù)商和企業(yè)安全管理運(yùn)維人供應(yīng)鏈架構(gòu)變革的同時(shí)需要構(gòu)建和實(shí)施適配供應(yīng)鏈各階計(jì)算等技術(shù)要求云服務(wù)商在基礎(chǔ)設(shè)施層具備更強(qiáng)的安全隔離性和監(jiān)控能力,而應(yīng)用的面對(duì)重重的安全挑戰(zhàn),企業(yè)的安全現(xiàn)狀是如何呢?上圖是一些主流云原生安全領(lǐng)域廠(chǎng) 在云原生時(shí)代的企業(yè)開(kāi)發(fā)流程中,開(kāi)源軟件和開(kāi)發(fā)工具可以幫助推動(dòng)企業(yè)提升研發(fā)效率。在云原生時(shí)代,企業(yè)對(duì)開(kāi)源生態(tài)越來(lái)越依賴(lài),三方軟件包的安全成為了無(wú)法回避的問(wèn)題。生產(chǎn)供應(yīng)鏈生命周期的每個(gè)階段進(jìn)行安全審核和部署防風(fēng)險(xiǎn)意識(shí)與有效的供應(yīng)鏈風(fēng)險(xiǎn)管理和防護(hù)措施的實(shí)這樣的安全流程顯然已經(jīng)無(wú)法滿(mǎn)足云原生時(shí)及構(gòu)建全鏈路的自動(dòng)化流程等幾個(gè)要點(diǎn)來(lái)加固.身份和訪(fǎng)問(wèn)管理:線(xiàn)上授予的權(quán)限與實(shí)際需要的權(quán)限之間存在??梢栽趹?yīng)用設(shè)計(jì)開(kāi)發(fā)的早期階段,幫助安全人員識(shí)別企業(yè)應(yīng)用架構(gòu)中潛藏的安全風(fēng)險(xiǎn)和針對(duì)身份和控制面的不當(dāng)配置以及網(wǎng)絡(luò)攻擊是攻擊者可以利用的主要途徑,攻擊者可以通在網(wǎng)絡(luò)側(cè),不同容器微服務(wù)應(yīng)用之間的東西向流量也提供給攻擊者更多的可 同時(shí)在企業(yè)應(yīng)用架構(gòu)發(fā)生動(dòng)態(tài)變化的同時(shí),也需要重新可以幫助企業(yè)構(gòu)建容器化應(yīng)用安全體系,也是企業(yè)構(gòu)建云原生威脅情報(bào)體系可以利用和借陣從左至右可以代表一個(gè)通常的容器側(cè)攻擊路徑。通過(guò)了解矩陣中每一個(gè)攻擊階段攻擊者可以利用的技術(shù)手段,可以幫助企業(yè)安全運(yùn)維人員有針對(duì)性地進(jìn)行安全設(shè)計(jì)和測(cè)試演練,為了進(jìn)一步理解云原生應(yīng)用安全風(fēng)險(xiǎn)并構(gòu)建完整的安全防護(hù)方案,企業(yè)安全運(yùn)維人的迭代。我們知道企業(yè)安全文化意識(shí)以及開(kāi)發(fā)、安全運(yùn)維團(tuán)隊(duì)之間的流程協(xié)同是只有通過(guò)這樣不斷循環(huán)反饋,才能保證在云原生下應(yīng)用的高速迭代的過(guò)程中持續(xù)的安全水企業(yè)應(yīng)用的安全性需要貫穿應(yīng)用程序的整個(gè)生命周期。開(kāi)發(fā)是整個(gè)應(yīng)用生命周期的第一個(gè)及運(yùn)行時(shí)威脅檢測(cè)方向上基于安全原則實(shí)現(xiàn)高效的自動(dòng)化監(jiān)控和管理能力,并且通過(guò)全局性的安全資產(chǎn)管理和態(tài)勢(shì)感知能力不斷發(fā)現(xiàn)風(fēng)險(xiǎn)并反饋 力可以幫助企業(yè)安全運(yùn)維人員從容應(yīng)對(duì)突發(fā)的攻擊事件,并在規(guī)劃的指導(dǎo)下做出快速的決在應(yīng)用制品的供應(yīng)鏈生命周期中應(yīng)盡早地以自動(dòng)化方式嵌入安全,通過(guò)引入自動(dòng)化的安全企業(yè)在落地并實(shí)踐了安全左移理念后,并不意味著安全工作的結(jié)束。在應(yīng)用的生產(chǎn)運(yùn)行階通過(guò)上面的介紹,我們對(duì)云原生安全面臨的挑戰(zhàn)以及當(dāng)下比較成熟的云原生安全理論體系企業(yè)安全管理員提供了開(kāi)箱即用的產(chǎn)品能力,安全人員可以通過(guò)簡(jiǎn)單的可視化白屏操作完當(dāng)作為基本且必要的需求融入設(shè)計(jì)環(huán)節(jié),并在安全專(zhuān)家的指導(dǎo)下審核架構(gòu)設(shè)計(jì)中潛藏的風(fēng)密鑰管理一直是企業(yè)應(yīng)用上云的核心問(wèn)題,云服務(wù)商有哪些安全方案可以幫助保護(hù)應(yīng)用密 基于該插件機(jī)制我們實(shí)現(xiàn)了阿里云自己的secrets-store-csi-driver-provider,并且支持憑據(jù)的請(qǐng)求權(quán)限綁定在插件使用的獨(dú)立serviceaccount上,避免將權(quán)限泄露給應(yīng)用pod戶(hù)態(tài)進(jìn)程的檢測(cè)分析都存在不足。而eBPF天然的技術(shù)優(yōu)勢(shì)是提升云原生應(yīng)用安全可觀(guān)測(cè)幫助安全運(yùn)維人員獲取攻擊者進(jìn)入到容器實(shí)例后發(fā)起攻擊的命令審計(jì),有效幫助針對(duì)安全 提供了可疑的漏洞利用活動(dòng)的溯源和告警能力,并且通過(guò)時(shí)間線(xiàn)圖表的方式直觀(guān)的展現(xiàn)給權(quán)限最小化原則是企業(yè)安全運(yùn)維中最基本也是最重要的準(zhǔn)則之一。傳統(tǒng)應(yīng)用架構(gòu)下,系統(tǒng)企業(yè)安全管理人員需要在安全系統(tǒng)設(shè)計(jì)中規(guī)劃和覆蓋應(yīng)用周期中的每個(gè)階段,在安全左移這里也列舉了企業(yè)生產(chǎn)供應(yīng)鏈中在開(kāi)發(fā),構(gòu)建部署、 流程:制定正確的流程可以確保每個(gè)人都站在同一起跑線(xiàn)上,并為安全一致性和凝聚力奠核,并且通過(guò)一些具體指標(biāo)和分級(jí)問(wèn)責(zé)機(jī)制的建立也是讓DevSecOps快速融入團(tuán)隊(duì)的有機(jī)密計(jì)算容器前沿探索與AI場(chǎng)景應(yīng)用術(shù)事業(yè)部的高級(jí)經(jīng)理朱江云共同分享了阿里云容器服務(wù)團(tuán)隊(duì)與社區(qū)和生態(tài)伙伴一起,在機(jī)阿里云容器服務(wù)高級(jí)技術(shù)專(zhuān)家壯懷首先分享了對(duì)當(dāng)前容業(yè)應(yīng)該堅(jiān)守的安全原則及阿里云容器服務(wù)如何與機(jī)密計(jì)算領(lǐng)域生態(tài)伙伴一起,為客戶(hù)提供/到可以對(duì)更大內(nèi)存空間做機(jī)密計(jì)算的SGX2.0,到今天應(yīng)用無(wú)感的平滑遷移進(jìn)入安全容器 .提權(quán)攻擊和內(nèi)存溢出/數(shù)據(jù)攻擊在云環(huán)境中運(yùn)行容器時(shí),底層基礎(chǔ)設(shè)施的安全性和云服務(wù)提供商的可信度變得至關(guān)重要。鑰或個(gè)人身份信息)可能會(huì)被未經(jīng)授權(quán)的人員訪(fǎng)問(wèn)或竊取。今天云原生的安全手段通過(guò)相RunD安全容器是龍蜥社區(qū)開(kāi)源的下一代容器解決方案,包含RustKataruntime和DragonballVMM。RunD安全容器已經(jīng)于2022年由龍蜥云原生儲(chǔ)插件和AttestProxy插件,從而允許在實(shí)際場(chǎng)景中對(duì)接不同的第三方存儲(chǔ)服務(wù)和支持租戶(hù)深度定制的證明策略。通過(guò)ACK應(yīng)用 通過(guò)ACK應(yīng)用市場(chǎng),云原生的方式一鍵部署遠(yuǎn)程證明和代理服務(wù)實(shí)例,helminstallkata-dragonball-tdx,kata-qemu-tdx以及增強(qiáng)安全特性后的runc,helminstall 來(lái)自英特爾中國(guó)軟件與先進(jìn)技術(shù)事業(yè)部的高級(jí)經(jīng)理朱江云代表ACK機(jī)密容器生態(tài)合作重 .在線(xiàn)服務(wù)資源使用量隨著終端用識(shí)別為低效節(jié)點(diǎn)后標(biāo)記出來(lái),virtual平臺(tái)需要通過(guò)建設(shè)更為細(xì)粒度的資源管理與調(diào)度能力來(lái)實(shí)現(xiàn)均值利用率提升的目標(biāo),具體形式下發(fā)到統(tǒng)一調(diào)度系統(tǒng)。統(tǒng)一調(diào)度系統(tǒng)基于不同的調(diào)度需求,對(duì)在線(xiàn)服務(wù)提供強(qiáng)保障的離線(xiàn)服務(wù)資源調(diào)度的基本原理是基于在線(xiàn)服務(wù)負(fù)載感知能力的動(dòng)態(tài)超賣(mài),具體實(shí)現(xiàn)是其中離線(xiàn)可用資源為節(jié)點(diǎn)上的空閑資源(包含未分配資源和已分配未使用資源之和扣):離線(xiàn)資源質(zhì)量和離線(xiàn)服務(wù)運(yùn)行穩(wěn)定性,通過(guò)資源畫(huà)像對(duì)上述公式中的在線(xiàn)服務(wù)實(shí)際使用量enableenabledisable低share(默認(rèn))share(默認(rèn)).share.reclaimed ResourceManager調(diào)度到具體節(jié)點(diǎn),并由節(jié)點(diǎn)上的Nodemanager組件拉起。其中 在小紅書(shū)近一年多混部技術(shù)探索過(guò)程中,我們?cè)谫Y源效能提升方面積累了較為豐富的落地.混合工作負(fù)載調(diào)度能力支持:包括大數(shù)據(jù),AI在內(nèi)的任務(wù)型工作負(fù)載調(diào)度能力.資源干擾檢測(cè):基于底層指標(biāo)、感知容器資源競(jìng)爭(zhēng)情況,識(shí)別異常Pod,消除干擾并輕松搭建基于服務(wù)網(wǎng)格的AI應(yīng)用,然后開(kāi)始玩Sidecar模式融合的服務(wù)網(wǎng)格新形態(tài)》主題演講,并在演講中展示了一個(gè)基于服務(wù)網(wǎng)格 .已按照實(shí)際操作系統(tǒng)及平臺(tái),下載Istioctl服務(wù)網(wǎng)格調(diào)試工具。詳細(xì)信息,請(qǐng)參見(jiàn)將交給多個(gè)運(yùn)行時(shí)工作負(fù)載來(lái)完成。每個(gè)運(yùn)行時(shí)支持不同的模型格式;并且可以同時(shí)提供.要使用這個(gè)能力,我們首先使用kubectl連接到ASM實(shí)例(參考通過(guò)控制面apiVersion:apiVersion:istio.alibabapkl等模型推理服務(wù)器可以加載并利用這些模型文件對(duì)外提供訓(xùn)練好的機(jī)器學(xué)習(xí)模型 模型的獲取也非常簡(jiǎn)單,不需要大家去自己訓(xùn)練了。我們只需要通過(guò)Tensorflow和https://tfhub.dev/google/magenta/arbitrary-image-stylization-v1-256/2下載到本地后,我們隨便找個(gè)路徑作為根目錄,新建一個(gè)tensorflow文件夾和一個(gè)variables.data-00000-of-00002variables.data-00001-of-00002mountPath:"/mnt/models"claimName:"my-models-pvc"kubectlkubectlcp-nmodelmesh-servingtensorflowkubectlcp-nmodelmesh-servingpytorchpapiVersion:apiVersion:serving.serving.kserve.io/dpath:tensorflow/style-traapiVersion:serving.serving.kserve.io/dpath:pytorch/style-tra grpc://modelmesh-serving.modelmegrpc://modelmesh-serving.modelmeprogressDeadlineSecondun'terminationMessagePath:/deprogressDeadlineSecondmodel-format:tensorfmodel-format:tensorf/build-test/style-istio-ingressgateway.istio-system.terminationMessagePath:/deprogressDeadlineSecond/build-test/style-istio-ingressgateway.istio-system.terminationMessagePath:/de.在全局命名空間頁(yè)面的數(shù)據(jù)面模式列,單擊apsara-demo命名空間對(duì)應(yīng)的切換為 apiVersion:networkingapiVersion:networkingname:vs-modelmesh-seapiVersion:networkingname:dr-modelmesh-sehost:modelmesh-serviapiVersion:istio.alibabaname:grpcjsontranscoder-for-ksbuiltinProtoDescriptor:kserve_predapiVersion:networking.name:grpcjsontranscoder-increaper_connection_buffer_limit_bytes:10 .針對(duì)模型推理服務(wù)中不同運(yùn)行時(shí)工作負(fù)載的動(dòng)態(tài)子集路由能力高apiVersion:apiVersion:networkingapiVersion:networkingapiVersion:networking-style-transfer.apsara-dhost:style-transfer.apsara-demo.svc.clhost:style-transfer.apsara-demo.svc.clapiVersion:networkinghost:style-transfer.apsara-demo.svc.clmodel-format:tensorf值得注意的是,我們使用用戶(hù)jwtclaim中的額外字段user_定義為user_class每個(gè)運(yùn)行時(shí)支持不同的模型格式;并且可以同時(shí)提供多個(gè)模型的推理服務(wù)。當(dāng)我們使用要實(shí)現(xiàn)動(dòng)態(tài)子集路由能力,我們只需要使用針對(duì)服務(wù)配置的DestinationRule資源與 調(diào)用鏈路的上游是集群中的style-transfer業(yè)務(wù)服務(wù),對(duì)于這個(gè)業(yè)務(wù)服務(wù),我們針對(duì)style-transfer-torch的不同工作負(fù)載,負(fù)責(zé)將下游應(yīng)用傳入的圖片處理為模型可以接受往不同的工作負(fù)載,用不同的模型對(duì)請(qǐng)求進(jìn)行響應(yīng)。其中請(qǐng)求的用戶(hù)信息則是用戶(hù)的/zh/asm/user-guide/create-an-asm-instance#task-2370/zh/asm/user-guide/restrictions-on-use#rwA6T/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-an-ack-dedicated-cluster#steps-7hk-mqa-7wa/zh/ack/ack-managed-and-ack-dedicated/user-guide/creat
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 樂(lè)活潮玩+時(shí)尚定制住宅大區(qū)+商業(yè)景觀(guān)設(shè)計(jì)方案
- 腦梗病人如何護(hù)理
- 理解歷史大事件
- 咖啡調(diào)制技能指導(dǎo)(第二版) 題庫(kù) -愛(ài)爾蘭咖啡調(diào)制
- 會(huì)計(jì)電算化練習(xí)題庫(kù)含參考答案
- 成本會(huì)計(jì)(第六版)學(xué)生工作頁(yè) 成本核算項(xiàng)目一
- 修理廠(chǎng)轉(zhuǎn)讓合同范例
- 倉(cāng)庫(kù)臨時(shí)租賃服務(wù)合同范例
- 兩個(gè)品牌合作協(xié)議合同范例
- 英語(yǔ)專(zhuān)業(yè)教育畢業(yè)論文
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)
- 《凝練的視覺(jué)符號(hào)》中衛(wèi)二中孫湘濤 人教版七年級(jí)下冊(cè)
- 監(jiān)控系統(tǒng)維護(hù)及方案
- 水利工程外觀(guān)評(píng)定評(píng)定標(biāo)準(zhǔn)
- 高嶺土化驗(yàn)檢測(cè)分析報(bào)告
- 商業(yè)銀行綜合柜臺(tái)業(yè)務(wù)(共227頁(yè)).ppt
- 廢舊物資回收服務(wù)實(shí)施方案
- 小學(xué)四年級(jí)綜合實(shí)踐活動(dòng)課件.ppt
- 四“借”三“有”寫(xiě)清楚實(shí)驗(yàn)過(guò)程——三下“我做了一項(xiàng)小實(shí)驗(yàn)”習(xí)作教學(xué)
- 呼吸困難完全PPT課件
- 浙江理工大學(xué)畢業(yè)論文答辯PPT模板【精品】
評(píng)論
0/150
提交評(píng)論