NICC新型智算中心算力池化技術(shù)白皮書-2023.09_第1頁
NICC新型智算中心算力池化技術(shù)白皮書-2023.09_第2頁
NICC新型智算中心算力池化技術(shù)白皮書-2023.09_第3頁
NICC新型智算中心算力池化技術(shù)白皮書-2023.09_第4頁
NICC新型智算中心算力池化技術(shù)白皮書-2023.09_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)NICC

新型智算中心算力池化技術(shù)白皮書(2023

年)中移智庫中國移動通信有限公司研究院2023

8

月I中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)前

言當(dāng)前,數(shù)字經(jīng)濟已成為國民經(jīng)濟高質(zhì)量發(fā)展的新動能,隨著人工智能在產(chǎn)業(yè)數(shù)字化進程中從“單點突破”邁向“泛在智能”,一個以數(shù)字化、網(wǎng)絡(luò)化、智能化為特征的智慧社會正加速到來。智能算力作為人工智能的基石,是算力網(wǎng)絡(luò)構(gòu)建多要素融合新型信息基礎(chǔ)設(shè)施的關(guān)鍵領(lǐng)域,已成為數(shù)字經(jīng)濟高質(zhì)量發(fā)展的核心引擎,智能算力基礎(chǔ)設(shè)施建設(shè)也迎來了高潮。智算中心作為集約化建設(shè)的算力基礎(chǔ)設(shè)施,它以

GPU、AI

芯片等智能算力為核心,提供軟硬件全棧環(huán)境,主要承載模型訓(xùn)練、推理、多媒體渲染等業(yè)務(wù),支撐千行百業(yè)數(shù)智化轉(zhuǎn)型升級。然而傳統(tǒng)智算中心的智算資源利用率較低,資源分布相對碎片化,不利于整體效能的提升,亟需一個可聚合各類型算力、實現(xiàn)敏捷化資源管理的平臺,使能資源可以被極致利用,算力池化技術(shù)應(yīng)運而生。為凝聚產(chǎn)業(yè)共識,進一步推動算力池化技術(shù)成熟,中國移動發(fā)布本白皮書,分析了智能算力發(fā)展的趨勢及面臨的挑戰(zhàn),系統(tǒng)性介紹了算力池化的定義與目標(biāo)、總體架構(gòu)、關(guān)鍵技術(shù)和當(dāng)前業(yè)界的探索實踐,并呼吁業(yè)界緊密合作、加快構(gòu)建算力池化統(tǒng)一的標(biāo)準(zhǔn)體系。本白皮書由中國移動通信有限公司研究院主編,北京趨動科技有限公司、華為技術(shù)有限公司、中興通訊股份有限公司、威睿信息技術(shù)(中國)有限公司聯(lián)合編撰,由中移智庫發(fā)布。本白皮書的版權(quán)歸中國移動所有,未經(jīng)授權(quán),任何單位或個人不得復(fù)制或拷貝本白皮書之部分或全部內(nèi)容。I中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)目

錄前

言.....................................................................................................................................I目

錄....................................................................................................................................II1.

算力池化技術(shù)背景............................................................................................................

11.1

傳統(tǒng)智算中心存在資源效率問題.........................................................................

21.1.1

GPU

資源利用率不足

30%............................................................................21.1.2

資源碎片化導(dǎo)致分配率低.............................................................................

31.2

池化技術(shù)是提高資源效率的關(guān)鍵.........................................................................

42.

算力池化定義與目標(biāo).........................................................................................................62.1

算力池化的定義...................................................................................................

62.2

算力池化的目標(biāo)...................................................................................................

63.

算力池化架構(gòu)與關(guān)鍵技術(shù).................................................................................................

83.1

算力池化平臺技術(shù)架構(gòu)........................................................................................

83.2

算力池化技術(shù)能力層級......................................................................................

103.3

算力池化關(guān)鍵技術(shù).............................................................................................

123.3.1

軟件定義的資源分配方式...........................................................................

123.3.2

算力資源高質(zhì)量管理技術(shù)...........................................................................

143.3.3

泛在化碎片的池化整合技術(shù)........................................................................164.

算力池化產(chǎn)業(yè)實踐..........................................................................................................

194.1

業(yè)界廠商池化技術(shù)實踐......................................................................................

194.2

中國移動池化技術(shù)實踐......................................................................................

245.

展望與倡議.....................................................................................................................

26參考文獻..............................................................................................................................27縮略語列表..........................................................................................................................

28II中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)1.

算力池化技術(shù)背景數(shù)字經(jīng)濟時代,隨著智慧城市、智慧交通、智慧家庭等智能場景的逐步落地,人工智能正深刻地改變我們的生產(chǎn)、生活方式。同時隨著

5G、邊緣計算等支撐技術(shù)的持續(xù)發(fā)展,數(shù)智業(yè)務(wù)轉(zhuǎn)型過程中所產(chǎn)生的數(shù)據(jù)量正在以更加難以計量的速度爆發(fā),據(jù)

IDC

公布的《數(shù)據(jù)時代

2025》顯示,從

2016

年到

2025

年全球總數(shù)據(jù)量將會增長

10

倍,達到

163ZB,其中非結(jié)構(gòu)化數(shù)據(jù)占

70%以上,計算模式將變得更加復(fù)雜,對智能算力的需求也在不斷提高,智能計算將成為主流的計算形態(tài)。隨著智能計算廣泛融合到生產(chǎn)、生活的各個方面,以

GPU、AI

芯片為主要算力資源的智算中心正逐步取代通用數(shù)據(jù)中心成為算力發(fā)展的主流形態(tài)。在此背景下,各國政府已開始布局

AI

領(lǐng)域全棧能力,并出資引導(dǎo)智能算力基礎(chǔ)設(shè)施建設(shè);我國也已進入智能化時代,“十四五”期間,相關(guān)部委積極推動智算中心建設(shè)發(fā)展,旨在面向人工智能場景提供公共算力服務(wù)。同時,隨著

ChatGPT

等基礎(chǔ)通用大模型業(yè)務(wù)引爆了對

GPU

的市場需求,產(chǎn)業(yè)各方紛紛加入對基礎(chǔ)大模型的訓(xùn)練和培育,導(dǎo)致“一芯難求”,GPU

價格也隨之暴漲。以英偉達

A800

為例,據(jù)市場數(shù)據(jù)統(tǒng)計,近半年來的價格增幅高達

30%以上。如何在有限的資源供應(yīng)內(nèi)盡可能提高利用率,充分發(fā)揮算力效率的同時降低智算中心

TCO,目前已成為智算中心建設(shè)待解決的關(guān)鍵命題之一。1中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)1.1

傳統(tǒng)智算中心存在資源效率問題1.1.1

GPU

資源利用率不足

30%當(dāng)前智算中心主要以國家或當(dāng)?shù)卣傮w牽頭建設(shè)為主,此外,AI

應(yīng)用服務(wù)企業(yè)也在布局自有智算基礎(chǔ)設(shè)施建設(shè)。然而,據(jù)公開數(shù)據(jù)統(tǒng)計,傳統(tǒng)模式下的智算中心

GPU

利用率較低,平均數(shù)值低于

30%:?

AWS

re:Invent

2018

公布數(shù)據(jù):平均

GPU

利用率為

20%?

Facebook

2021

年機器學(xué)習(xí)負(fù)載分析報告:平均

GPU

利用率不足

30%?

英偉達

GTC2022

公布數(shù)據(jù):Google

云平均

GPU

利用率為

25%傳統(tǒng)智算中心的

GPU

資源利用率過低,主要來源于以下多個方面的原因:(一)資源分配較為粗放:資源分配以整卡分配為主,輔以一虛多的虛擬化分配方式,顆粒度較粗,無法適配不同

AI

任務(wù)對資源的差異化需求,導(dǎo)致部分資源閑置,影響算力資源的利用率;(二)算力沒有被充分激活:AI

任務(wù)模型設(shè)計缺陷、算力優(yōu)化程度不足、模型框架與底層芯片適配不充分等原因,均可能導(dǎo)致算力資源的性能無法充分發(fā)揮,導(dǎo)致額外的資源損耗;(三)網(wǎng)絡(luò)帶寬瓶頸制約:智算中心設(shè)備和服務(wù)器之間的通信需要消耗網(wǎng)絡(luò)帶寬,網(wǎng)絡(luò)瓶頸會影響影響整體性能,算力資源空閑度高、利用率低。傳統(tǒng)智算中心的

GPU

資源利用率問題是一個綜合性的問題,需要2中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)從資源管理策略、硬件架構(gòu)設(shè)計、應(yīng)用軟件算法優(yōu)化等多方面共同優(yōu)化解決,其中尤以資源管理策略方面的優(yōu)化可控性強、生效快、投入產(chǎn)出比高,是新型智算中心算力池化的重要研究方向之一。1.1.2

資源碎片化導(dǎo)致分配率低資源碎片指體量較小,低于應(yīng)用的需求而無法被分配出去的閑置資源,通常來說,應(yīng)用所需資源的規(guī)格越高、種類越多,導(dǎo)致資源碎片的概率則越大。近幾年來,AI

業(yè)務(wù)迅速發(fā)展,從訓(xùn)練到推動,從小模型到大模型,AI

任務(wù)的種類越來越多,對算力的需求越來越高,算力資源碎片化趨勢較為明顯。碎片化的原因包括任務(wù)類型差異、任務(wù)規(guī)模差異、任務(wù)優(yōu)先級差異以及任務(wù)調(diào)度能力等多方面因素。(一)任務(wù)類型差異:智算中心提供的算力資源可以用于不同種類的任務(wù),包括機器學(xué)習(xí)、深度學(xué)習(xí)、圖像處理等。也包括大模型、小模型、分布式推理、集中式推動,由于不同類型的任務(wù)對硬件配置的要求不同,因此會導(dǎo)致不同類型的任務(wù)需要不同的算力資源,難以充分適配;(二)任務(wù)規(guī)模差異:任務(wù)規(guī)模不同,所需求的算力資源不同,并且不同任務(wù)規(guī)模對算力資源的分配也無實際標(biāo)準(zhǔn),小規(guī)模任務(wù)可申請大規(guī)模的算力,雖然存在資源浪費,但卻可加速任務(wù)完成,相反,在資源總數(shù)限制下,大規(guī)模任務(wù)也可根據(jù)相對較少的算力資源,雖然影響計算效率,但卻節(jié)約了投資。以上多方面的因素,導(dǎo)致任務(wù)需求3中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)規(guī)格與硬件配置無法對齊,從而導(dǎo)致算力資源碎片化;(三)任務(wù)優(yōu)先級差異:不同的任務(wù)可能有不同的優(yōu)先級,一些高優(yōu)先級的任務(wù)可能會占用大量的計算資源,導(dǎo)致其他任務(wù)無法及時得到滿足,影響整體資源布局;(四)任務(wù)調(diào)度能力:任務(wù)調(diào)度也是影響計算資源碎片化的重要因素。如果任務(wù)調(diào)度不當(dāng),可能會導(dǎo)致計算資源得不到充分分配,從而造成資源浪費。綜上所述,根據(jù)多樣化

AI

任務(wù)對算力資源的差異化需求,靈活地調(diào)度、分配資源,是降低智算中心算力資源碎片的關(guān)鍵。1.2

池化技術(shù)是提高資源效率的關(guān)鍵如何對稀缺、昂貴的算力資源充分利用,降低其不可分配的碎片概率,可以考慮借鑒云計算的思路,對

GPU、AI

芯片等進行聚合池化,再利用先進的資源管理技術(shù)進行切分、調(diào)度、分配,使能資源可按任務(wù)的實際需求進行有序供給。(一)物理成池:通過高性能智算中心網(wǎng)絡(luò)打通服務(wù)器間通路,使得分散在各服務(wù)器中的

CPU、GPU、AI

芯片等算力資源可以互聯(lián)互通、透明共享。這項技術(shù)允許跨用戶、用例、時間尺度共享物理算力資源,還可以為在集群的一個節(jié)點中執(zhí)行的單個

AI

任務(wù)任意調(diào)用集群中算力,使

AI

任務(wù)獲得進一步加速。(二)邏輯成池:利用池化軟件對

CPU、GPU、AI

芯片等資源在邏輯上聚合,AI

任務(wù)在創(chuàng)建時,不再是將零散的、孤島式的資源進行4中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)裸分配,而是根據(jù)調(diào)度流程,從聚合的池化資源中切分出所需數(shù)量進行分配。一方面,分配的資源數(shù)量可按

AI

任務(wù)實際所需執(zhí)行,當(dāng)

AI任務(wù)所需資源不明確,或因負(fù)載變化導(dǎo)致資源數(shù)量變動時,可實現(xiàn)動態(tài)供給、回收,實現(xiàn)多

AI

任務(wù)的峰谷互補,降低資源閑置率;另一方面,切分后的零散資源可以再度聚合、調(diào)度、分配,降低碎片率。5中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)2.

算力池化定義與目標(biāo)2.1

算力池化的定義智能算力池化指依托云計算技術(shù),整合

GPU/AI

芯片等異構(gòu)算力資源,構(gòu)建集中管理的資源池,并按上層智算業(yè)務(wù)的需求,對池化的資源進行統(tǒng)一調(diào)度、分配,實現(xiàn)智算業(yè)務(wù)生命周期管理的全套技術(shù)。為解決智算中心所面臨的資源利用率問題,算力池化基于傳統(tǒng)云計算技術(shù)(如

Kubernetes、OpenStack,智算中心以

Kubernetes

為主)有針對性地增強

GPU/AI

芯片池化能力,采用軟件定義的方式,對

GPU/AI

芯片進行分時調(diào)度管理,實現(xiàn)按

GPU/AI

芯片的細粒度分配資源,并采用

GPU/AI

芯片

Runtime

API

劫持、應(yīng)用程序監(jiān)視器等技術(shù),實現(xiàn)資源跨節(jié)點遠程調(diào)用、零散資源整合等,從而達到算力資源充分利用、碎片最小化效果,可有效提升資源效率,降低智算中心整體建設(shè)成本。2.2

算力池化的目標(biāo)智能算力池化的目標(biāo)是利用軟件定義技術(shù),對通過高速無損網(wǎng)絡(luò)互連互通的

CPU、GPU、AI

芯片等算力資源進行池化整合,實現(xiàn)資源的集中調(diào)度、按需分配,使能資源可被充分利用,降低碎片概率,提高總體有效算力、降低智算中心購置成本。化整為零。革新傳統(tǒng)的整卡分配、一虛多虛擬化分配的粗放式分配方式,使能精細化分配能力,根據(jù)

AI

任務(wù)的資源需求進行按需供6中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)給,契合多樣化業(yè)務(wù)的差異需求。隔空取物?;诟咚贌o損網(wǎng)絡(luò),跨節(jié)點調(diào)取

GPU、AI

芯片等智能算力資源,使能

CPU

傳統(tǒng)算力及

GPU、AI

芯片智能算力高度解耦,進一步降低碎片化比例?;銥檎?。整合分布在多機上的零散資源,匯聚碎片為可再分配的資源、匯聚小規(guī)格資源為更大模型業(yè)務(wù)可使用的資源,使能資源可高效分配。變靜為動。革新傳統(tǒng)的資源靜態(tài)分配、本地綁定的機制,使能資源可以根據(jù)負(fù)載變化動態(tài)分配、回收,多任務(wù)間可以峰谷互補,全局資源可以適度超分,促進資源效率提升。7中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)3.

算力池化架構(gòu)與關(guān)鍵技術(shù)3.1

算力池化平臺技術(shù)架構(gòu)新型智算中心算力池化平臺依托云計算技術(shù)擴展池化能力,根據(jù)AI

任務(wù)特點,一般基于

K8S(Kubernetes)定制化實現(xiàn)。算力池化平臺的技術(shù)架構(gòu)參考如下:圖

1

算力池化平臺技術(shù)架構(gòu)算力池化平臺邏輯上可分為池化資源管理、資源服務(wù)代理、池化運行時三類模塊組成:(1)

池化資源管理?

Kubernetes

管理組件:基于

Kubernetes

原生管理服務(wù)組件定制化增強,如支持分布式文件存儲、支持

POD

多網(wǎng)絡(luò)平面、支持RoCEv2/Infiniband

網(wǎng)絡(luò)等;?

Kubernetes

調(diào)度擴展:關(guān)聯(lián)

Kubernetes

調(diào)度服務(wù)擴展專用的池化資源類型,對該類資源的請求轉(zhuǎn)遞智算資源池化控制器進行調(diào)度、分配,需配合

Kubernetes

設(shè)備插件使用;?

智算資源池化控制器:對

GPU、AI

芯片等智算進行統(tǒng)一管理、8中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)調(diào)度、分配;(2)

資源服務(wù)代理?

池化服務(wù)代理:根據(jù)智算資源池化控制器的調(diào)度結(jié)果,將池化運行時對資源的訪問請求重定向到實際物理位置執(zhí)行,如涉及跨機訪問智算資源,則需相關(guān)服務(wù)器上的池化服務(wù)代理多次重定向,跨機重定向的流量需經(jīng)由高速無損網(wǎng)絡(luò)(如參數(shù)面網(wǎng)絡(luò));?

Kubernetes

服務(wù)代理:基于

Kubernetes

原生服務(wù)代理組件定制化增強;?

Kubernetes

設(shè)

Kubernetes

調(diào)

,

為Kubernetes

服務(wù)代理注冊專用的池化資源類型;?

容器運行時:基于原生容器運行時(如

Dockerd、Containerd等)定制化增強;(3)

池化運行時?

池化運行時:依托

GPU、AI芯片的原生運行時(如

CUDA

Runtime)進行二次封裝,采用

API

劫持、應(yīng)用程序監(jiān)視等技術(shù),將

AI

應(yīng)用軟件/AI

開發(fā)框架對算力資源的訪問轉(zhuǎn)遞至池化服務(wù)代理執(zhí)行。池化運行時位于容器

POD

內(nèi),在容器運行時由自動注入。根據(jù)上述技術(shù)架構(gòu),當(dāng)

AI

應(yīng)用編排器通過調(diào)用

Kubernetes

API創(chuàng)建應(yīng)用時,可按新增的池化資源類型指定申請的資源數(shù)量(如pool.kubernetes.io/gpu:

1),對該類型資源的申請會被

Kubernetes調(diào)度擴展攔截、轉(zhuǎn)遞至智算資源池化控制器進行調(diào)度,智算資源池化控制器按申請的資源數(shù)量、資源池內(nèi)空閑資源分布情況進行調(diào)度后,9中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)將調(diào)度結(jié)果響應(yīng)給

Kubernetes

管理組件,然后

Kubernetes

管理組件正常執(zhí)行

AI

應(yīng)用的創(chuàng)建流程,由

Kubernetes

服務(wù)代理創(chuàng)建最終

POD作為交付物,并通過池化服務(wù)代理配合在

POD

中自動注入池化運行時、通過

Kubernetes

設(shè)備插件配合在

POD

中插入虛擬

GPU。AI

應(yīng)用的

POD

在運行的時候,通過池化運行時訪問虛擬

GPU、執(zhí)行

AI

任務(wù),池化運行時攔截對虛擬

GPU

的訪問請求、轉(zhuǎn)遞給池化服務(wù)代理執(zhí)行,池化服務(wù)代理通過向智算池化控制器查詢虛擬

GPU

所對應(yīng)的真實智算資源位置、規(guī)格,按查詢結(jié)果分配智算資源、執(zhí)行

AI任務(wù),如果真實的智算資源位于遠程計算節(jié)點,則由本地池化服務(wù)代理將訪問請求轉(zhuǎn)遞給遠程計算節(jié)點上的池化服務(wù)代理處理,相關(guān)通信經(jīng)由參數(shù)面網(wǎng)絡(luò)。3.2

算力池化技術(shù)能力層級算力池化技術(shù)本質(zhì)是通過軟件定義硬件加速的方式,更加高效靈活的聚合、調(diào)度以及釋放海量

AI

加速算力,精準(zhǔn)保障

AI

模型開發(fā)、訓(xùn)練、部署、測試、發(fā)布全鏈條算力配給,降低智算中心算力服務(wù)提供成本,提升智算中心整體效能。從對異構(gòu)算力使用的成熟度及靈活性角度出發(fā),當(dāng)前算力池化技術(shù)可劃分為以下三個能力層級:10中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)圖

2

算力池化技術(shù)能力層級階段

1,靜態(tài)管理。將單物理

GPU/AI

芯片按固定比例切分成多個虛擬

GPU/虛擬

AI

芯片,比如

1/2

1/4,每個虛擬

GPU/AI

芯片的顯存相等,算力輪詢。最初是伴隨著服務(wù)器虛擬化的興起,解決虛擬機可以共享和使用

GPU/AI

芯片資源的問題。對于靜態(tài)管理方案,2021年英偉達在部分

Ampere

系列

GPU

上提供了

MIG

技術(shù),例如可以將

A100切分成最多

7

份。階段

2,動態(tài)管理。以單物理

GPU/AI

芯片為目標(biāo),支持物理

GPU/AI芯片從算力和顯存兩個維度靈活切分,實現(xiàn)自定義大小(通常算力最小顆粒度

1%,顯存最小顆粒度

1MB),滿足

AI

應(yīng)用差異化需求。同時,軟件定義

GPU/AI

芯片資源可充分適應(yīng)當(dāng)前應(yīng)用云原生化趨勢,實時響應(yīng)上層應(yīng)用對資源需求的變化,實現(xiàn)

vGPU/AI

芯片資源基于Scale-Up/Scale-Down

的動態(tài)伸縮,并通過資源動態(tài)掛載動態(tài)釋放實現(xiàn)

GPU/AI

芯片資源超分。階段

3,池化管理。池化技術(shù)的重大突破在于支持

CPU

通用算力及

GPU/AI

芯片等智能算力的獨立成池,兩種資源池內(nèi)匯聚的資源獨立調(diào)度、分配,當(dāng)調(diào)度的資源分屬不同節(jié)點時,可通過高速無損網(wǎng)絡(luò)11中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)跨節(jié)點調(diào)用、組裝成

AI

任務(wù)所需總算力。此管理方式下,AI

應(yīng)用可以部署到智算中心的任意位置,不管所在節(jié)點上有沒有智算資源、智算資源夠不夠,所欠缺的部分從遠程抓取即可,從而實現(xiàn)在網(wǎng)絡(luò)范圍內(nèi)充分共享閑置、甚至碎片化的多種類型資源,促進資源的有效利用。由于遠程調(diào)用的資源相比本地化資源的訪問速度相對較低,因此,池化管理技術(shù)可引入服務(wù)質(zhì)量管理技術(shù),按任務(wù)優(yōu)先級,優(yōu)先分配本地資源,次選遠程調(diào)用,任務(wù)資源不足時將

AI

任務(wù)進行隊列化管理,等待釋放出充足資源時再運行。3.3

算力池化關(guān)鍵技術(shù)3.3.1

軟件定義的資源分配方式傳統(tǒng)的依賴于硬件支持的虛擬化技術(shù)下,AI

應(yīng)用通過訪問GPU/AI

芯片的運行時所提供的接口,以獲得對智算資源的調(diào)用,資源的算力完全由卡硬件確定,軟件上難以介入,從而無法獲得更敏捷的管理。池化技術(shù)下,資源分配方式發(fā)生了根本性的變革,軟件介入了資源的算力供給,為開啟更敏捷的資源管理模式,比如動態(tài)伸縮、資源超分等奠定了技術(shù)基礎(chǔ),為持續(xù)優(yōu)化智算資源利用率創(chuàng)造了無限可能。池化技術(shù)主要通過以下兩種實現(xiàn)了軟件定義的資源分配:(1)

API

劫持技術(shù)API

劫持技術(shù)是目前比較普遍的、針對智能算力的池化技術(shù),它通過劫持對

Runtime

API(如

CUDA

API)調(diào)用實現(xiàn)資源調(diào)度。12中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)如

3.1

章節(jié)技術(shù)架構(gòu)的圖

1

所示,AI

應(yīng)用的容器

POD

內(nèi)運行的池化運行時并非

GPU/AI

芯片原生的運行時,而是基于原生運行時進行了一定定制化的版本,它對上層應(yīng)用所提供的

API

接口完全等同于原生運行時,因此對

AI

應(yīng)用來說是透明的。當(dāng)

AI

應(yīng)用訪問池化運行時的

API

時,則被池化運行時轉(zhuǎn)遞至池化服務(wù)代理執(zhí)行,池化服務(wù)代理則具備敏捷化的資源管理功能,比如按

1%算力、1MB

緩存的精度細粒度分配資源,實現(xiàn)跨節(jié)點遠程調(diào)用資源等。圖

3

API

劫持技術(shù)圖解API

劫持技術(shù)的關(guān)鍵在于池化運行時仿真

GPU/AI

芯片的原生運行時,由于

GPU/AI

芯片種類、型號繁多,其原生運行時又相對活躍、升級頻繁,仿真工作較為復(fù)雜,開發(fā)量、維護難度較大。(2)

應(yīng)用程序監(jiān)視器技術(shù)這是一種完全與

GPU/AI

芯片無關(guān)的設(shè)備虛擬化和遠程處理方法,允許在沒有顯式軟件支持的情況下啟用新的硬件體系結(jié)構(gòu)。該項技術(shù)通過應(yīng)用程序監(jiān)視器工作,該監(jiān)視器與

Hypervisor

管理虛擬機的方式類似,分為前端、后端,前端監(jiān)視指定應(yīng)用程序的活動,攔截至后端處理,后端可以按應(yīng)用程序申請的數(shù)量分配資源,或?qū)?yīng)用程序拆分到多臺機器上運行,在保持代碼、數(shù)據(jù)和執(zhí)行環(huán)境一致性的前提下13中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)使用這些機器上的智算資源,從而實現(xiàn)資源的細粒度管理、遠程調(diào)用等資源敏捷化管理功能。應(yīng)用程序監(jiān)視器負(fù)責(zé)維護應(yīng)用程序狀態(tài)(內(nèi)存、文件、應(yīng)用程序庫的加載),以及虛擬化與系統(tǒng)的交互(例如系統(tǒng)調(diào)用和進程間通信),以確保在多個位置執(zhí)行時的一致性。圖

4

應(yīng)用程序監(jiān)視器技術(shù)圖解與

API

劫持技術(shù)直接介入到

AI

應(yīng)用訪問資源的流程、需要仿真原生運行時的

API

接口的方式不同,應(yīng)用程序監(jiān)視器不介入到

AI

應(yīng)用訪問資源的流程、而是通過更底層的系統(tǒng)調(diào)用隱含而廣泛的支持更多種類、型號的硬件和新的運行時功能,其實現(xiàn)方式與特定的運行時API(如

CUDA)無關(guān),具備更加強大的通用性和兼容性。應(yīng)用程序監(jiān)視器技術(shù)是一種新型的池化方案,建議技術(shù)成熟后再考慮商用引入。3.3.2

算力資源高質(zhì)量管理技術(shù)基于軟件定義的資源分配方式,算力池化平臺可以實現(xiàn)更敏捷的資源管理方式,從而實現(xiàn)算力的高質(zhì)量管理。(一)資源細粒度分配通過虛擬化手段,將物理資源按照算力與顯存兩個維度進行細粒度抽象,上層應(yīng)用不再以物理硬件為單位進行資源申請及使用,而是14中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)以物理硬件算力

1%,顯存

1MB

為基本單位。(二)資源限額管理通過時分等算力控制技術(shù),對不同租戶之間、同租戶不同進程、不同租戶不同進程之間實現(xiàn)

GPU

算力及顯存的隔離與控制,減少資源爭搶帶來的性能擾動,避免程序惡意搶占算力資源。(三)資源無感動態(tài)伸縮池化技術(shù)可通過資源動態(tài)分配,為容器動態(tài)的分配可用資源,上層應(yīng)用可根據(jù)自身業(yè)務(wù)邏輯及負(fù)載情況,實時向算力調(diào)度平臺申請算力、顯存資源,實現(xiàn)資源動態(tài)垂直擴展。(四)資源超分及峰谷互補智算中心對外提供業(yè)務(wù)時,為避免業(yè)務(wù)之間的競爭影響到服務(wù)質(zhì)量,不同類型的業(yè)務(wù)通常分開部署在不同的資源池。但業(yè)務(wù)的運行往往存在高峰期和低谷期,業(yè)務(wù)獨占資源導(dǎo)致異構(gòu)算力硬件普遍存在空閑周期,很多業(yè)務(wù)空閑期遠長于高峰期,導(dǎo)致總體資源利用率很低。與此同時,為保障服務(wù)質(zhì)量,業(yè)界通用做法是采用資源過量供應(yīng)的方式來對業(yè)務(wù)進行支撐,導(dǎo)致預(yù)留的資源量與實際的使用量之間存在較大的差距。如果能夠?qū)I(yè)務(wù)的波谷時段利用起來,就能減少波谷時間,從時間維度提升效能;同理,將資源預(yù)留冗余縮小,就能從空間維度提升效能。因此將不同優(yōu)先級、不同波動周期的業(yè)務(wù)進行混合部署,為兩個維度提升利用率提供了可能性,即利用低優(yōu)先級任務(wù)占用空閑資源,同時高優(yōu)先級任務(wù)能及時搶占到資源,從而保證關(guān)鍵業(yè)務(wù)的服務(wù)質(zhì)量。算力池化技術(shù)可以通過軟件定義,將底層物理硬件資源抽象后做適當(dāng)?shù)?5中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)放大,利用算力硬件計算周期空閑時間,通過時分復(fù)用有效使用算力,同時,利用單一指針進行內(nèi)存托管,將顯存、系統(tǒng)內(nèi)存進行統(tǒng)一維護,在

CPU

GPU

之間形成內(nèi)存池共享內(nèi)存資源,由系統(tǒng)來自動地進行內(nèi)存遷移,以實現(xiàn)

GPU

顯存擴展,如

CUDA

unified

memory。(五)智算任務(wù)隊列化管理單個

AI

任務(wù)的開展可簡單劃為為數(shù)據(jù)準(zhǔn)備、任務(wù)執(zhí)行、模型評估三個階段,從資源角度上分析,數(shù)據(jù)準(zhǔn)備階段主要使用

CPU

資源,訓(xùn)練開始后才開始使用

GPU

算力資源進行計算加速。相較于

CPU

通用算力資源,智算中心內(nèi)智能算力資源更加容易達到瓶頸,為提高整體AI

訓(xùn)練任務(wù)的執(zhí)行效率,算力池化技術(shù)可提供智能算力資源排隊的能力,即

AI

任務(wù)的下發(fā)可根據(jù)

CPU、內(nèi)存等資源的可用情況觸發(fā),訓(xùn)練任務(wù)進入執(zhí)行階段后,如智能算力資源不足可進行排隊等待,按序執(zhí)行。同時可根據(jù)訓(xùn)練任務(wù)的重要程度,設(shè)置資源使用的優(yōu)先級。3.3.3

泛在化碎片的池化整合技術(shù)泛在化碎片至分布式在本地、遠程的傳統(tǒng)方式下無法再利用的資源。對這些泛在化碎片進行池化整合,合并為邏輯視圖上的一整片算力,有更高概率滿足

AI

任務(wù)的資源規(guī)格需求。(一)泛在化資源跨機整合技術(shù)論文《Characterizing

Deep

Learning

Training

Workloads

onAlibaba-PAI》分析了阿里一個訓(xùn)練集群上的負(fù)載特征(見圖

5):從任務(wù)數(shù)量上看,約

59%的任務(wù)是單卡小任務(wù);從

GPU

資源消耗上看,16中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)雖然

81%的

GPU

是被分布式訓(xùn)練任務(wù)占用(單機多卡也算分布式),但是這其中有一半的資源是被小于

8

GPU

的任務(wù)所占用(1

臺物理服務(wù)器可滿足);只有

0.7%數(shù)量的任務(wù)是使用超過

128

GPU(需要16

臺或更多物理服務(wù)器)。圖

5

阿里某訓(xùn)練集群的負(fù)載特征這個分析表明,訓(xùn)練任務(wù)是多樣化的,其規(guī)模有大有小,從資源角度上看,意味著智算中心各類業(yè)務(wù)對

CPU

算力與

GPU

算力的配比需求是多樣化的,而

GPU

服務(wù)器硬件配置往往是單機

4

卡或者單機

8

卡,單機

CPU

算力與

GPU

算力的固定配比,在承載多樣化的訓(xùn)練任務(wù)時,勢必帶來資源碎片現(xiàn)象的產(chǎn)生,進而引發(fā)大量多卡任務(wù)因為資源不足在隊列中排隊等待執(zhí)行,容易帶來資源整體流轉(zhuǎn)效率低下的問題。為解決資源碎片問題,池化技術(shù)可以實現(xiàn)對零散資源的整合,包括跨機整合。見第

3.1

章,智算資源池化控制器實現(xiàn)了對

CPU

GPU/AI芯片分池、單獨調(diào)度,也即為

POD

調(diào)度的

CPU

GPU/AI

芯片資源可能不在同一臺服務(wù)器上,但對應(yīng)用是透明的,當(dāng)

AI

應(yīng)用訪問虛擬

GPU時,由池化服務(wù)代理根據(jù)虛擬

GPU

所對應(yīng)的真實

GPU

資源位置分配資17中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)源,如果有遠程調(diào)用需求,則由

POD

所在服務(wù)器上的池化服務(wù)代理轉(zhuǎn)發(fā)資源請求至目標(biāo)服務(wù)器上的池化代理服務(wù)訪問。通過資源聚合,可以將

GPU

集群內(nèi)的資源碎片利用網(wǎng)絡(luò)快速整合,保障多卡任務(wù)快速啟動,提升資源流轉(zhuǎn)效率。(二)智算業(yè)務(wù)

SLA

分級及自動服務(wù)質(zhì)量管理智算中心作為承載海量智算業(yè)務(wù)的基礎(chǔ)設(shè)施,在資源優(yōu)化方面應(yīng)在兼顧訓(xùn)練任務(wù)的整體吞吐率、GPU/AI

芯片資源的整體利用率的同時,提升多個訓(xùn)練任務(wù)的整體性能,而非強調(diào)單個任務(wù)的性能。深度學(xué)習(xí)框架是很多訓(xùn)練任務(wù)依賴的一類基礎(chǔ)軟件,其設(shè)計目標(biāo)之一是提升單個訓(xùn)練任務(wù)的性能,而池化技術(shù)的目標(biāo)是通過充分利用數(shù)據(jù)中心內(nèi)所有

GPU/AI

芯片資源,從而達到多任務(wù)的整體最優(yōu),兩者并不矛盾。框架和池化技術(shù)可以互相配合,在達成多任務(wù)整體最優(yōu)的情況下,盡量讓每個任務(wù)的運行更加優(yōu)化。池化技術(shù)可針對不同任務(wù)對于性能的要求進行分級,按優(yōu)先級高到低采取使用指定硬件資源、只使用任務(wù)所在服務(wù)器上

GPU/AI

芯片資源、任意調(diào)用數(shù)據(jù)中心內(nèi)可用算力資源等分配策略,可以確保任務(wù)性能要求的前提下,達到整體資源最優(yōu)分配。18中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)4.

算力池化產(chǎn)業(yè)實踐4.1

業(yè)界廠商池化技術(shù)實踐(1)

趨動科技

OrionX

池化平臺趨動科技的

OrionX(獵戶座)AI

算力資源池化解決方案可幫助智算中心運營方構(gòu)建數(shù)據(jù)中心級

AI

算力資源池,使用戶應(yīng)用無需修改就能透明地共享和使用數(shù)據(jù)中心內(nèi)任何服務(wù)器之上的

GPU/AI

芯片。OrionX

通過軟件定義

AI

算力,顛覆了原有的

AI

應(yīng)用直接調(diào)用物理GPU/AI

芯片的架構(gòu)。AI

應(yīng)用調(diào)用邏輯的

vGPU,再由

OrionX

通過

API劫持技術(shù)將

vGPU

需求匹配到具體的物理

GPU/AI

芯片,包括

AI

應(yīng)用本地或遠程的

GPU/AI

芯片。OrionX

架構(gòu)實現(xiàn)了

GPU

資源池化,讓用戶高效、智能、靈活地使用智算,達到了降本增效的目的。圖

6

趨動科技

OrionX

軟件架構(gòu)(2)

VMware

BitFusion

Radium

池化平臺19中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)VMware

利用自己強大的

vSphere

計算虛擬化平臺,并在其基礎(chǔ)上集成了

VMware

Bitfusion

池化能力,可以虛擬化

GPU

以提供可通過網(wǎng)絡(luò)訪問的共享資源池,從而加速人工智能和機器學(xué)習(xí)的應(yīng)用程序。vSphere

Bitfusion

采用客戶端/服務(wù)器架構(gòu)。該產(chǎn)品允許多個客戶端虛擬機或容器

POD

運行人工智能和機器學(xué)習(xí)應(yīng)用程序,以便在運行vSphere

Bitfusion

服務(wù)器軟件的虛擬機或容器

POD

上共享對遠程GPU

的訪問??梢栽?/p>

vSphere

Bitfusion

客戶端計算機上運行應(yīng)用程序,而提供加速的

GPU

則安裝在網(wǎng)絡(luò)中的

vSphere

Bitfusion

服務(wù)器計算機上。圖

7

VMware

BitFusion

軟件架構(gòu)VMware

Project

Radium

正在研發(fā)通過監(jiān)視器引入虛擬化服務(wù)的方式進行

GPU

池化。與

Bitfusion

技術(shù)不同,應(yīng)用程序監(jiān)視器在應(yīng)用程序的上下文中運行,因此我們可以動態(tài)地將應(yīng)用程序分成兩半,TOPHALF

也即應(yīng)用程序監(jiān)視服務(wù)負(fù)載攔截系統(tǒng)指令交由

BOTTOM

HALF

執(zhí)20中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)行,BOTTOM

HALF

也即資源管理監(jiān)視器負(fù)責(zé)按

Radium

服務(wù)端程序的調(diào)度結(jié)果分配資源,以實現(xiàn)池化功能。圖

8

VMware

Radium

軟件架構(gòu)(3)

中興

TECS

OpenPalette

平臺中興

TECS

OpenPalette

產(chǎn)品以開源

Docker

kubernetes

技術(shù)為基礎(chǔ),為用戶提供輕量級虛擬化容器云解決方案,并疊加池化能力。采用標(biāo)準(zhǔn)容器化技術(shù),支持多容器共享宿主機

CPU

資源,同時支持容器

CPU

綁定;支持容器使用

GPU/AI

芯片功能,針對主流的

GPU/AI

芯片廠家(如英偉達、寒武紀(jì)),采用增強版的

Kubernetes

GPU

DevicePlugin,配合增強版的

Kubernetes

調(diào)度器使一個

Kubernetes

Pod

獨占一個或者多個

GPU、使多個

Kubernetes

Pod

共享一個

GPU;針對AI

應(yīng)用需要指定

GPU

Index

的場景,開發(fā)了

Kubernetes

Pod

指定

GPUIndex

的調(diào)度能力。21中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)圖

9

中興

TECS

OpenPalette

GPU

方案架構(gòu)中興

TECS

OpenPalette

產(chǎn)品通過提供

CPU

GPU

的池化能力,達到資源共享的目標(biāo),且在提高資源使用效率的同時,也滿足客戶對池化資源服務(wù)質(zhì)量的要求。(4)

華為基于

Volcano

CCE

平臺華為基于

Volcano

的容器集群管理平臺

CCE,能夠支持

GPU/AI芯片混部能力,通過共享

GPU/AI

芯片算力、切分顯存的方式,提升K8S

集群

GPU/AI

芯片的資源利用率。Volcano

通過四項創(chuàng)新調(diào)度技術(shù)實現(xiàn)對資源利用率的優(yōu)化。22中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)圖

10

華為基于

Volcano

CCE

方案架構(gòu)?

在線離線混合調(diào)度:CCE

可以將離線和在線業(yè)務(wù)在同一集群中混合部署,空閑資源用來運行離線計算業(yè)務(wù)(如離線分析、模型訓(xùn)練等),而當(dāng)業(yè)務(wù)高峰來臨前,會自動釋放離線業(yè)務(wù)占用的資源,保障在線業(yè)務(wù)對資源的訴求;?

應(yīng)用感知智能調(diào)度:為了進一步提升混合部署后的資源利用率,通過感知應(yīng)用模型(如

Web

類應(yīng)用、Tensorflow

PS

worker、Spark

Driver

executor

等),針對不同應(yīng)用模型對資源的訴求、應(yīng)用負(fù)載情況,通過資源按需搶占、分時復(fù)用等機制,減少集群資源的空閑比例;并通過感知任務(wù)間拓?fù)浣Y(jié)構(gòu),將各任務(wù)調(diào)度到最佳節(jié)點上,減少因網(wǎng)絡(luò)瓶頸、數(shù)據(jù)跨節(jié)點傳輸?shù)葞淼臅r間損耗,進而可以將資源利用率提升

2

倍;?

大規(guī)模分布式調(diào)度:為了保障業(yè)務(wù)混合部署后,海量任務(wù)并23中國移動通信有限公司研究院新型智算中心算力池化技術(shù)白皮書(2023)發(fā)調(diào)度的難題,CCE

推出了分布式架構(gòu)的任務(wù)調(diào)度器,提升吞吐能力,并通過調(diào)度算法剪枝,減少尋址深度和廣度,同時結(jié)合調(diào)度決策復(fù)用機制,可將調(diào)度尋址時間縮短

10

倍以上,實現(xiàn)每秒

1

萬容器的大規(guī)模并發(fā)調(diào)度;?

GPU

虛擬化:基于

HCE

OS

2.0

操作系統(tǒng),CCE

提供結(jié)合

Volcano、GPU

虛擬化技術(shù)實現(xiàn)的

GPU

算力和顯存的細粒度調(diào)度、切分及隔離能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論