




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGE\*ROMANPAGE\*ROMANIINICC(2023)20238目 錄前 言 I目 錄 II算力池化技術(shù)背景 1傳算心存資源率問(wèn)題 2GPU資源利用率不足30% 2資源碎片化導(dǎo)致分配率低 3池術(shù)提高源效的關(guān)鍵 4算力池化定義與目標(biāo) 6算化定義 6算化目標(biāo) 6算力池化架構(gòu)與關(guān)鍵技術(shù) 8算化臺(tái)技架構(gòu) 8算化術(shù)能層級(jí) 10算化鍵技術(shù) 12軟件定義的資源分配方式 12算力資源高質(zhì)量管理技術(shù) 14泛在化碎片的池化整合技術(shù) 16算力池化產(chǎn)業(yè)實(shí)踐 19業(yè)商化技實(shí)踐 19中動(dòng)化技實(shí)踐 24展望與倡議 26參考文獻(xiàn) 27縮略語(yǔ)列表 28PAGEPAGE1算力池化技術(shù)背景著5G、邊緣計(jì)算等支撐技術(shù)的持續(xù)發(fā)展,數(shù)智業(yè)務(wù)轉(zhuǎn)型過(guò)程中所產(chǎn)IDC20252016202510163ZB,70%GPU、AI片為主要算力資源的智算中心正逐步取代通用數(shù)據(jù)中心成為算力發(fā)AIChatGPTGPUA80030GPU30%GPUAWSre:Invent2018GPU20%Facebook2021GPU30%GTC2022GPU25%GPU()AI()()網(wǎng)絡(luò)帶寬瓶頸制約:智算中心設(shè)備和服務(wù)器之間的通信需傳統(tǒng)智算中心的GPU資源利用率問(wèn)題是一個(gè)綜合性的問(wèn)題,需要資源碎片化導(dǎo)致分配率低AI()任務(wù)類(lèi)型差異:智算中心提供的算力資源可以用于不同種()任務(wù)規(guī)模差異:任務(wù)規(guī)模不同,所需求的算力資源不同,規(guī)格與硬件配置無(wú)法對(duì)齊,從而導(dǎo)致算力資源碎片化;()()AIGPUAI()使得分散在各服務(wù)器中的CPU、GPU、AI資源,還可以為在集群的一個(gè)節(jié)點(diǎn)中執(zhí)行的單個(gè)AIAI()CPUGPUAI輯上聚合,AIAIAIAI算力池化定義與目標(biāo)GPU/AI計(jì)算技術(shù)(Kubernetes、OpenStackKubernetesGPU/AIGPU/AIGPU/AIGPU/AIRuntimeAPI互連互通的CPUGPU、AIAI給,契合多樣化業(yè)務(wù)的差異需求。隔空取物?;诟咚贌o(wú)損網(wǎng)絡(luò),跨節(jié)點(diǎn)調(diào)取GPU、AI芯片等智能CPUGPUAI化零為整。整合分布在多機(jī)上的零散資源,匯聚碎片為可再分配變靜為動(dòng)。革新傳統(tǒng)的資源靜態(tài)分配、本地綁定的機(jī)制,使能資算力池化架構(gòu)與關(guān)鍵技術(shù)算力池化平臺(tái)技術(shù)架構(gòu)AIK8S(Kubernetes)圖1 算力池化平臺(tái)技術(shù)架構(gòu)KubernetesKubernetesPODKubernetesKubernetes度、分配,需配合KubernetesGPUAI調(diào)度、分配;(KubernetesKubernetesKubernetes設(shè)備插件:配合Kubernetes調(diào)度擴(kuò)展,為KubernetesDockerdContainerd等?GPUAI如CUDARuntime)APIAIPOD根據(jù)上述技術(shù)架構(gòu),當(dāng)AIKubernetesAPI創(chuàng)建應(yīng)用時(shí),可按新增的池化資源類(lèi)型指定申請(qǐng)的資源數(shù)量(如pool.kubernetes.io/gpu:Kubernetes1010將調(diào)度結(jié)果響應(yīng)給KubernetesKubernetes常執(zhí)行AIKubernetesPOD作POD過(guò)KubernetesPODGPU。AIPODGPUAIGPUGPUAI算力池化技術(shù)能力層級(jí)活的聚合、調(diào)度以及釋放海量AIAI11PAGE1圖2 算力池化技術(shù)能力層級(jí)階段1,靜態(tài)管理。GPU/AIGPU/AI1/21/4GPU/AI機(jī)可以共享和使用GU/AI21年英偉達(dá)在部分AmpereGPUMIGA1007階段2以單物理GPU/IGP/I11MB)AIGPU/AI實(shí)時(shí)響應(yīng)上層應(yīng)用對(duì)資源需求的變化,實(shí)現(xiàn)vGPU/AI動(dòng)態(tài)伸縮現(xiàn)GPU/AI芯片資源超分。階段池化技術(shù)的重大突破在于支持CPUGPU/AIAI服務(wù)質(zhì)量管理資源,次選遠(yuǎn)程調(diào)用,任務(wù)資源不足時(shí)將AI任務(wù)進(jìn)行隊(duì)列化管理,等待釋放出充足資源時(shí)再運(yùn)行。算力池化關(guān)鍵技術(shù)軟件定義的資源分配方式傳統(tǒng)的依賴于硬件支持的虛擬化技術(shù)下,AI應(yīng)用通過(guò)訪問(wèn)GPU/AI池化技術(shù)主要通過(guò)以下兩種實(shí)現(xiàn)了軟件定義的資源分配:API劫持技術(shù)API通過(guò)劫持對(duì)RuntimeAPI(CUDAAPI)3.11AIPODGPU/AIAPIAIAI時(shí)的API11MB圖3 API劫持技術(shù)圖解APIGPU/AIGPU/AI應(yīng)用程序監(jiān)視器技術(shù)GPU/AIHypervisor(()圖4 應(yīng)用程序監(jiān)視器技術(shù)圖解APIAIAPIAIAPI(如CUDA)算力資源高質(zhì)量管理技術(shù)(一)資源細(xì)粒度分配以物理硬件算力1%,顯存1MB為基本單位。(二)資源限額管理通過(guò)時(shí)分等算力控制技術(shù),對(duì)不同租戶之間、同租戶不同進(jìn)程、不同租戶不同進(jìn)程之間實(shí)現(xiàn)GPU算力及顯存的隔離與控制,減少資源爭(zhēng)搶帶來(lái)的性能擾動(dòng),避免程序惡意搶占算力資源。(三)資源無(wú)感動(dòng)態(tài)伸縮(四)資源超分及峰谷互補(bǔ)預(yù)留的資源量與實(shí)際的使用量之間存在較CPUGPUGPUCUDAunifiedmemory。(五)智算任務(wù)隊(duì)列化管理AICPU訓(xùn)練開(kāi)始后才開(kāi)始使用GPUCPUAICPU、內(nèi)存等資源的可用情況觸發(fā),泛在化碎片的池化整合技術(shù)力,有更高概率滿足AI(一)泛在化資源跨機(jī)整合技術(shù)CharacterizingDeepLearningTrainingWorkloadsonAlibaba-PAI》分析了阿里一個(gè)訓(xùn)練集群上的負(fù)載特征(5):59GPU81GPU(8GPU(10.7128需要16)。圖5 阿里某訓(xùn)練集群的負(fù)載特征CPUGPUGPU48單機(jī)CPUGPU3.1CPUGPU/AIPOD調(diào)度的CPUGPU/AIAIGPUGPUPOD以將GPU(二)智算業(yè)務(wù)SLA分級(jí)及自動(dòng)服務(wù)質(zhì)量管理在兼顧訓(xùn)練任務(wù)的整體吞吐率、GPU/AI內(nèi)所有GPU/AIGPU/AI算力池化產(chǎn)業(yè)實(shí)踐業(yè)界廠商池化技術(shù)實(shí)踐趨動(dòng)科技OrionX池化平臺(tái)OrionX(獵戶座)AIAIGPU/AIOrionXAIAIAIOrionXAPI劫持技術(shù)將vGPUGPU/AIAIGPU/AIOrionXGPU圖6 趨動(dòng)科技OrionX軟件架構(gòu)VMwareBitFusion和Radium池化平臺(tái)2020VMwarevSphere集成了VMwareBitfusionGPUvSphereBitfusion采用客戶端/PODBitfusionPOD的訪問(wèn)。可以在vSphereBitfusion客戶端計(jì)算機(jī)上運(yùn)行應(yīng)用程GPUvSphereBitfusion服務(wù)器圖7 VMwareBitFusion軟件架構(gòu)VMwareProjectRadium方式進(jìn)行GPUBitfusionHALFBOTTOMHALF22PAGE1行,BOTTOMHALFRadium圖8 VMwareRadium軟件架構(gòu)中興TECSOpenPalete平臺(tái)TECSOpenPaletteDockerkubernetesCPUCPUGPU/AIGPU/AI(KubernetesGPUDeviceKubernetesKubernetesPodGPUKubernetesPodGPU;針對(duì)AIGPUIndexKubernetesPodGPUIndex圖9 中興TECSOpenPaletteGPU方案架構(gòu)TECSOpenPaletteCPUGPU華為基于Volcano的CCE平臺(tái)VolcanoCCEGPU/AIGPU/AIGPU/AIVolcano圖10 華為基于的CCE方案架構(gòu)在線離線混合調(diào)度:CCE(WebTensorflowPSworkerSparkDriver和executor2101GPU虛擬化:基于HCEOS2.0CE提供結(jié)合Vlcno、GPUGPU力,可以更高效的利用GPU中國(guó)移動(dòng)池化技術(shù)實(shí)踐IaaS圖8 中國(guó)移動(dòng)智算中心技術(shù)架構(gòu)容器基礎(chǔ)設(shè)施EKIAPICPU、GPU/AI/展望與倡議GPT、StableDiffusionAIGCGPU/AI聯(lián)合展開(kāi)算力池化關(guān)鍵技術(shù)攻關(guān)。聯(lián)合攻關(guān)異構(gòu)算力集中調(diào)度技聯(lián)合推動(dòng)算力池化標(biāo)準(zhǔn)體系建設(shè)。聯(lián)合制定池化運(yùn)行時(shí)標(biāo)準(zhǔn),實(shí)聯(lián)合打造算力池化技術(shù)開(kāi)源實(shí)現(xiàn)。聯(lián)合眾多GPU/AI芯片的制造2828縮略語(yǔ)列表縮略語(yǔ)英文全程中文釋義AIArtificialIntelligence人工智能CPUCentralProcessingUnit中央處理器GPUGraphicsProcessingUnit圖形處理器CUDAComputeUnifiedDeviceArchitectureNVIDIA推出的GPU運(yùn)行時(shí)APIApplicationProgramInterface應(yīng)用程序接
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 委托租賃收款協(xié)議書(shū)
- 婚內(nèi)財(cái)產(chǎn)贈(zèng)送協(xié)議書(shū)
- 學(xué)校暫借資產(chǎn)協(xié)議書(shū)
- 委托投資合同協(xié)議書(shū)
- 外觀專(zhuān)利租售協(xié)議書(shū)
- 工傷期間工資協(xié)議書(shū)
- 嬰兒保姆合同協(xié)議書(shū)
- 2024屆四川省馬邊彝族自治縣中考數(shù)學(xué)五模試卷含解析
- 高二生物必修三課堂互動(dòng)計(jì)劃
- 2025年人教版三年級(jí)語(yǔ)文學(xué)習(xí)評(píng)價(jià)計(jì)劃
- 蜱蟲(chóng)預(yù)防卡通
- 股骨干骨折知識(shí)
- 非遺文化產(chǎn)業(yè)發(fā)展-深度研究
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí)答案
- 基于大數(shù)據(jù)的社區(qū)健康監(jiān)測(cè)-深度研究
- 丙酸鉻、淀粉酶對(duì)黃羽肉雞生長(zhǎng)性能、抗氧化和腸道健康的影響
- 光伏發(fā)電新能源課件
- 《無(wú)人機(jī)電力巡檢紅外圖像分析技術(shù)規(guī)范》
- 2025年廣東省高中學(xué)業(yè)水平考試綜合測(cè)評(píng)卷(二)政治試題(含解析)
- 老舊小區(qū)改造給排水施工方案
- 醫(yī)院?jiǎn)T工保密協(xié)議書(shū)模板2025年
評(píng)論
0/150
提交評(píng)論