




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
中國移動NICC新型智算中心技術體系白皮書ChatGPT系列大模型的發(fā)布,不僅引爆全球科技圈,更加夯實了人工智能(Artificial范圍內(nèi)提速。然而,早期建設的智算中心,以承載中小模型、賦能企業(yè)數(shù)的,在技術標準、生態(tài)構建、業(yè)務發(fā)展和全局運營等各方面仍有待提升。新型智算中心的建設是一個系統(tǒng)工程,需要“算存網(wǎng)管效”從自身戰(zhàn)略轉(zhuǎn)型出發(fā),為構建智能服務的核心和基礎,定義新型面向未來大模型孵化,從新互聯(lián)、新算效、新存儲、新平臺和新技術演進建議,希望本白皮書能夠為合作伙伴在新型智算中心的本白皮書在中國移動集團有限公司技術部和計劃建設部指導下星網(wǎng)銳捷、昆侖芯、天數(shù)智芯、盛科、云合智網(wǎng)、云豹智新型智算中心技術體系的構建與成熟需要產(chǎn)業(yè)鏈各方凝聚共中國移動NICC新型智算中心技術體系白皮書中國移動NICC新型智算中心技術體系白皮書中國移動中國移動NICC新型智算中心技術體系白皮書11956年第一次AI發(fā)展浪潮信息伊始,60多年來,從理論探索到大數(shù)據(jù)驅(qū)動,從深度學習到大模型智能涌現(xiàn),AI正在成為一項新興的通用型技術,向多場景、規(guī)模化、AIGC(AI隨著AI在賦能產(chǎn)業(yè)發(fā)展、促進數(shù)實融合方面發(fā)揮出愈加顯著的作用,各國政府紛紛發(fā)布政中國移動NICC新型智算中心技術體系白皮書以應對來自“戰(zhàn)略競爭者和外國對手”的挑戰(zhàn)方政府相繼出臺政策,指導AI產(chǎn)業(yè)發(fā)展規(guī)劃,鼓勵企業(yè)加大人才引進和研發(fā)力度,并明確智算中心的戰(zhàn)略地位不斷提升,為構造未來競爭發(fā)展優(yōu)勢,很算中心。其中,美國能源部及國家科學基金會主導,將智算中心點。美國科技巨頭也是智算中心的主要建設者,包括谷歌的開放機器學習中心(9E特中國移動NICC新型智算中心技術體系白皮書國內(nèi)智算中心建設熱潮始于2020年,目前已有40+城市建成或正在建設智算中心(如圖心主要由地方政府與企業(yè)合建,總體投資規(guī)模超千億,旨在帶動當?shù)鼗ヂ?lián)網(wǎng)和AI企業(yè)自建的智算中心是國內(nèi)智能算力的重要組成,如阿里在張北和烏蘭察布建設的總規(guī)模達15E的智算中心,旨在結(jié)合智能駕駛、智慧城市等業(yè)務,探索云服務后的智感在生態(tài)方面各地智算中心的服務對象多為區(qū)域內(nèi)的行業(yè)客戶、科研全局協(xié)同,隨著東數(shù)西算、東數(shù)西渲等應用需求不斷豐富中國移動NICC新型智算中心技術體系白皮書粒度提供算力服務的模式,轉(zhuǎn)變?yōu)橹С志蘖坎⑿杏嬎懔暫褪褂玫臅r間成本,另一方面加強產(chǎn)業(yè)鏈上下游中國移動中國移動NICC新型智算中心技術體系白皮書2結(jié)合大模型技術的發(fā)展趨勢以及對智算中心建設和使用現(xiàn)狀的分析,我們認為ChatGPT等預訓練大模型的出現(xiàn),必將帶來AI基礎設施的變革,傳統(tǒng)的算力堆疊方式已然失效,智算中心需要在互聯(lián)、算效、存儲、平臺、節(jié)能五大領域進行系統(tǒng)化的重對千行百業(yè)的革新與改造。為此,中國移動結(jié)合自身轉(zhuǎn)型戰(zhàn)略和一線客戶需求,提出NICC中國移動NICC新型智算中心技術體系白皮書智算運維域和智算運營域。其中基礎設施層提供計算、存儲、網(wǎng)在此之上搭建算力原生平臺提供應用跨架構遷移能力;應用使能層集成行業(yè)主流AI開發(fā)框進行管理維護,確保系統(tǒng)的穩(wěn)定運行;智算運營域?qū)油獠靠蛻粢惨骖欆浖脚_與硬件資源的縱向協(xié)同,同對智算底座的算力能力和擴展性均提出高要求。在設備形態(tài)方面,GPU、AI芯片以扣卡模中國移動NICC新型智算中心技術體系白皮書硬件資源開始按照集群的方式部署,相比提升單芯片算力,芯片間關鍵?;ヂ?lián)方案以服務器節(jié)點為界限,節(jié)點內(nèi)外高速互聯(lián)技術各自存儲逐漸向融合存儲演進,提升數(shù)據(jù)交互效率;平臺應具備池化算算資源的細粒度分配、動態(tài)調(diào)度和一體管理。分布式并行訓練框架2)超級池化時期:當大模型邁進萬億參數(shù)量規(guī)模,算力、顯存和互聯(lián)的需求再次升級,智算中心將真正進入超級池化時代,高速互聯(lián)的百卡組成的“超級服務器(SuperServer,級服務器”內(nèi)需要打造統(tǒng)一的協(xié)議實現(xiàn)CPU、GPU、AI芯片、顯存、存儲等池化資源的無縫連接,進而通過GSE等高性能交換網(wǎng)絡,達到極高吞吐、極低時延的系統(tǒng)算力;為推動算效能力進一步提升,基于存算一體架構的大算力芯片將開始逐步服務器”內(nèi)支持內(nèi)存池技術,對外擴展支持全局統(tǒng)一存儲;針對日構建基于算力原生平臺的跨架構開發(fā)、編譯、優(yōu)化環(huán)境,屏蔽底層我們認為,新型智算中心當前已處在“集群時期”,中國移動想構建AI基礎設施;面向中遠期,我們應重點攻關“超級池化時期”的關鍵技術,盡快形中國移動中國移動NICC新型智算中心技術體系白皮書33.1集群內(nèi)的高速卡間互聯(lián)大模型浪潮除了帶來算法及軟件革命,也拉開了AI基礎設施變革的序幕。一方面,算法結(jié)構的創(chuàng)新影響了AI芯片在算力精度范圍和專用加速電路等方面的設計,但單芯片算力提升據(jù)樣本,模型的尺寸已經(jīng)遠超出單個AI芯片甚至單臺服務器的計算能力,億級以上的模型需要部署在高速互聯(lián)的多個AI芯片上,分布式并行訓練。當前,相較于單芯片能力提升,3.1.1大模型分布式訓練需要高速卡間互聯(lián)在大模型迸發(fā)出知識涌現(xiàn)能力之前,AI的主流場景是中小模型承載的計算機視覺類中國移動NICC新型智算中心技術體系白皮書型顯存占用集中在單卡或者單服務器節(jié)點,訓練模式多采用單行,每張卡或節(jié)點上都有完整的模型結(jié)構,卡間通信主要傳輸訓練數(shù)據(jù),分布式運行,數(shù)據(jù)樣本和模型結(jié)構被切分到多張卡或者節(jié)點上,卡樣本的通信,還有模型梯度的頻繁傳遞,對卡間的互聯(lián)能力在帶寬常用的分布式并行策略主要分為數(shù)據(jù)并行(DataParallel,DP)和模型并行(Model中國移動NICC新型智算中心技術體系白皮書●數(shù)據(jù)并行的實現(xiàn)思路是每個計算設備上(每張卡或者節(jié)點)都有一個完整模型,將數(shù)據(jù)集拆分到多個計算設備上同時訓練,在反向傳播中,各個設備上的個Stages放在每個計算設備上,訓練過程是逐層順序計算,通信數(shù)據(jù)量比數(shù)據(jù)并行小,對拓撲無特殊要求,點對點互聯(lián)即可,通信帶寬要求在幾-十幾GB/s;張量并行由英偉達在PCIe形態(tài)設備在通信帶寬和模式上都難以為繼。在帶寬方面,PCIe4.0*16最高為64GB/s,無法覆蓋百G帶寬需求;在通信模式方面,卡間通信必須經(jīng)過CPU繞轉(zhuǎn)甚至跨CPUNUMA,不僅帶來通信延遲,還增加AI算法開發(fā)難度;在擴展性方面,部分廠家曾采用橋互聯(lián)數(shù)量基本在4卡及以下,擴展能力有限。因此,PCIe設備形態(tài)逐漸被扣卡模組形態(tài)的中國移動NICC新型智算中心技術體系白皮書3.1.2“七國八制”的卡間高速互聯(lián)技術現(xiàn)狀針對中小模型訓練,基于PCIe設備形態(tài)的解決方案已經(jīng)非常成熟,面向大模型場景,基于扣卡模組的卡間高速互聯(lián)方案則呈現(xiàn)“七國八制”的局面。目前行業(yè)主要分為私有和開放一代到第二代的演進主要體現(xiàn)在互聯(lián)拓撲的轉(zhuǎn)變,從cube直連演變?yōu)镾witch交換拓撲,第三代在交換拓撲的基礎上,通過增加單卡的NVLink通道數(shù)提升點對點(PeertoPeer,P2P)帶寬,第四代則通過完善多種協(xié)議內(nèi)容,進一步實現(xiàn)C2C(chiptochip)、AI中國移動NICC新型智算中心技術體系白皮書寬的提升,但也會引起功耗上升、PCB布局布線困難等問題,是芯片工程實現(xiàn)的經(jīng)典PPA中國移動NICC新型智算中心技術體系白皮書展能力,當前國際主流水平已經(jīng)采用Switch交換或全互聯(lián)的拓撲結(jié)構達到8卡或百卡級別力上均有代際差;芯片的通信協(xié)議設計決定了集群的互聯(lián)效率,同時反過來影響芯片的IO3.1.3未來萬億級模型的卡間高速互聯(lián)演進建議聯(lián)協(xié)議均各自為“?!?,且多數(shù)企業(yè)缺乏從AI芯片到交換芯片的全產(chǎn)品設計能力,導致交我們建議從統(tǒng)一高速互聯(lián)協(xié)議入手,以實現(xiàn)百卡規(guī)?;ヂ?lián)為設計目標,聯(lián)的擴展性及開放性要求,可采用統(tǒng)一的計算總線協(xié)議作為百卡第一,推動GPU、AI加速卡支持統(tǒng)一高效計算總線協(xié)議。在大規(guī)模并行計算中,各個設備統(tǒng)一的計算總線協(xié)議避免了不同協(xié)議之間的轉(zhuǎn)換,可以確保設備協(xié)議的設計應聚焦多個GPU、AI加速卡之間在大帶寬、低時延的基礎訴求,并實現(xiàn)緩存一致性的數(shù)據(jù)訪問,確保簡化上層應用研發(fā)難度,提升流量控制、架構在解決異構設備互聯(lián)問題時會使用不同的通信協(xié)議和數(shù)據(jù)格式復雜性和延遲,對整體性能產(chǎn)生不利影響。因此,構建多異構設備中國移動NICC新型智算中心技術體系白皮書等設備間進行統(tǒng)一尋址,將有利于降低用戶開發(fā)難度,提升設備第三,推動GPU、AI加速卡在功耗和面積上進一步實現(xiàn)集約化設計,滿足單芯片計算能力提升和數(shù)據(jù)中心節(jié)能要求。通過引入更高速率的SerDesIP,對計算總線協(xié)議進行優(yōu)化,減少芯片上所需的硬件資源和物理面積,以減少通信過程中的能量消耗。低未來,期望結(jié)合計算總線協(xié)議推廣、產(chǎn)品規(guī)模研發(fā)、生態(tài)系統(tǒng)建3.2.1InfiniBand與RoCE是當前主流方案新型智算中心網(wǎng)絡從邏輯上可以分為:出口網(wǎng)絡、管理網(wǎng)絡其中,參數(shù)網(wǎng)絡主要用于承載AI模型訓練業(yè)務,其通信流量主要具備周期性、流量大、同步突發(fā)等特點。尤其在大模型訓練過程中,通信具有非常強的周期性,且每輪迭代的通信模式突發(fā)式傳輸,以上通信流量的特點要求參數(shù)網(wǎng)絡必須具備零丟中國移動NICC新型智算中心技術體系白皮書寬的網(wǎng)絡效果。目前市場上只有NVIDIA可提供IB2010年提出RoCE協(xié)議標準,允許應用通過以太網(wǎng)實現(xiàn)遠程內(nèi)存訪問,使用者只需要更換網(wǎng)卡,而不需要更換現(xiàn)有的以太網(wǎng)網(wǎng)絡設備及線纜就可以享受到RDMA帶來的網(wǎng)絡性能提挑戰(zhàn)二:分布式訓練的多對一通信模型產(chǎn)生大量In-cast流量,造成設備內(nèi)部隊列緩存的瞬時突發(fā)而導致?lián)砣踔羴G包,造成應用時延的增加和吞吐的下降。PFC(Priority-based中國移動NICC新型智算中心技術體系白皮書在該架構下,各節(jié)點分布式運行和自我決策轉(zhuǎn)發(fā)路徑導致無法3.2.2全調(diào)度以太網(wǎng)突破無損以太性能瓶頸“授權請求”和“響應機制”的主動流控,最大限度避免網(wǎng)絡擁塞的產(chǎn)生。三是從“局部”決策到“全局”調(diào)度演進,即全局視野的轉(zhuǎn)發(fā)調(diào)度機制,實現(xiàn)GSE)技術方案[11],打造無阻塞、高帶寬、低時延、自動化的新型智算中心網(wǎng)絡,助力如圖3-8所示,全調(diào)度以太網(wǎng)(GSE)技術架構主要包括計算層、網(wǎng)絡層和控制層3個層中國移動NICC新型智算中心技術體系白皮書現(xiàn)GSP和GSF協(xié)同,實現(xiàn)基于報流量調(diào)度等技術融合的交換網(wǎng)絡;控制層主要包含全局集中式GSOS,以及GSP和計算節(jié)點即服務器側(cè)的計算卡、網(wǎng)卡,提供高性能計算能力。GSP即網(wǎng)絡邊緣處理節(jié)點,用以接入計算流量,并對流量做全局調(diào)度;流量上行時具備動態(tài)負具備流量排序能力。GSF即網(wǎng)絡核心交換節(jié)點,作為GSP的上一層級設備,用于靈活擴展網(wǎng)絡規(guī)模,具備動態(tài)負載均衡能力,以及反壓信息發(fā)中國移動NICC新型智算中心技術體系白皮書智算中心網(wǎng)絡通常采用胖樹(Fat-Tree)架構,智算業(yè)務流量存在“數(shù)量少,單流大”的特點,傳統(tǒng)以太網(wǎng)逐流率不均,從而引起網(wǎng)絡擁塞。單流多路徑是提升智算中心網(wǎng)絡有鍵技術手段。GSE技術架構提出一種基于報文容器(PacketContainer,PKTC)的轉(zhuǎn)發(fā)及長”容器進行轉(zhuǎn)發(fā),屬于同一個報文容器的數(shù)據(jù)包標記相同的容銷來對數(shù)據(jù)包進行組裝和還原。在網(wǎng)絡中轉(zhuǎn)發(fā)時添加的報文另一方面,由于模型訓練流量的特殊性,網(wǎng)絡會出現(xiàn)“多打大于A2的出口帶寬,造成A2口出口隊列擁塞。這種情況僅通過負載均衡是無法規(guī)中國移動NICC新型智算中心技術體系白皮書用以實現(xiàn)本GSP節(jié)點到對應所有出端口的流量調(diào)度。本G授權請求和響應機制,由最終的設備出口、途經(jīng)的設備統(tǒng)一進行全網(wǎng)端到端授權,保證全網(wǎng)中前往任何一個端口的流量既不會超過該端口的負載能力,也不會超出中間任一網(wǎng)絡節(jié)中國移動NICC新型智算中心技術體系白皮書GSE技術方案,網(wǎng)卡側(cè)仍采用傳統(tǒng)RoCE網(wǎng)卡。此外,也可以結(jié)合網(wǎng)卡能力演進,將GSE方案各組件的功能在網(wǎng)絡組件中重新分工,將部分或全部網(wǎng)絡功是說,在未來的實際應用中,可以將GSP的功能全部下沉到網(wǎng)卡以提供端到端的方案,也可以將網(wǎng)絡的起終點分別落在網(wǎng)絡設備和網(wǎng)卡上,為后續(xù)網(wǎng)絡建3.2.3智算中心網(wǎng)絡關鍵技術演進1)速率體系升級,功耗成為挑戰(zhàn):在交換芯片方面,交換芯片作為網(wǎng)絡設備的心臟,直接決定設備能力。當前業(yè)界單芯片容量已達51.2T,SerDes速率也演進到100G。在接口帶寬方面,傳統(tǒng)通用數(shù)據(jù)中心服務器接入帶寬以10G、25G為主,而AI100G/200G的高性能網(wǎng)卡,最高端網(wǎng)卡已經(jīng)達到400G接口。而網(wǎng)絡接入層交換機需配套片容量、單通道數(shù)據(jù)傳輸速率的大幅提升和對光模塊速率、數(shù)量要求的提高,使得網(wǎng)絡設線距離,降低成本和功耗。該技術雖前景可觀,但對現(xiàn)有網(wǎng)絡建設和運多新挑戰(zhàn)。LPO技術將傳統(tǒng)光模塊內(nèi)部DSP功能集成到交換芯片中,降低光模塊層面信號2)低時延轉(zhuǎn)發(fā),F(xiàn)EC技術是關鍵:隨著端口速率的不斷提升,高速信號完整性FEC的過程又可以分為檢錯邏輯和糾錯邏輯。在低速的FEC處理中往往沒有做上述流程的區(qū)分,但隨著速率提升、檢測及糾錯邏輯的復雜,細分差異化處消除無錯場景下FEC收幀和譯碼時延,降低無錯情況下的接口時延,消除高增益FEC碼字中國移動NICC新型智算中心技術體系白皮書所以此方式可以優(yōu)化端口的平均轉(zhuǎn)發(fā)時延。靈活FEC技術可以根據(jù)鏈路的誤碼率狀態(tài),自吐、低時延數(shù)據(jù)傳輸?shù)男枨蟾鼮槠惹?,這些數(shù)據(jù)不僅涉及用戶隱產(chǎn)。為了應對日益嚴峻的數(shù)據(jù)安全挑戰(zhàn),要對以太網(wǎng)傳輸鏈路提數(shù)據(jù)加解密帶來的時延與開銷。目前以太網(wǎng)已部署的存量設備可現(xiàn)有MACSec等網(wǎng)絡安全加密技術難以完全覆蓋鏈路層及以上協(xié)議層的安全加密。如基于優(yōu)先級的流量控制幀無法加密幀頭部以及掩蓋幀發(fā)送頻率、幀長效防止流量分析攻擊,存在安全漏洞。PHYSec技術將物理層加密的理念與以太網(wǎng)物理層技術相融合,以實現(xiàn)低開銷、低時延、高安全和協(xié)議透明等特性的4)擁塞控制,端網(wǎng)協(xié)同是核心:由于網(wǎng)絡中流量的隨機性以及路徑的多樣性,擁塞的出現(xiàn)不可避免。網(wǎng)絡出現(xiàn)擁塞后,會造成排隊時延增大、網(wǎng)絡利用率降低性增速乘性降速)調(diào)整發(fā)送速率。由于1個比特的ECN信號無法定量地表示擁塞程度,發(fā)目前,業(yè)界典型的優(yōu)化思路分為兩類:第一類是更加精細化的被動控制,如HPCC(High中國移動中國移動NICC新型智算中心技術體系白皮書4以GPU為代表的高性能并行計算芯片架構和以針對AI領域?qū)S眉铀伲―SA,Domain片上排布了數(shù)以千計的,專為同時處理多重任務而設計的小計算核心。隨著AI深度學習算片是一種針對神經(jīng)網(wǎng)絡計算的專用處理器,主要功能是加速神量計算單元。AIDSA芯片在功耗、可靠性、芯片體積、性能等方面都有巨大的優(yōu)勢,但由當前技術和生態(tài)還處于多而不強的局面。GPU生態(tài)代表的是英偉達,AIDSA是Google中國移動NICC新型智算中心技術體系白皮書面向未來萬億模型的興起到大模型應用逐漸落地,算的性能瓶頸。二是海量內(nèi)存和計算單元間的頻繁訪問切一是存算一體化設計思路,解決存儲帶寬和訪存功耗的問題。未來10年是計算架構變革的新十年。計算存儲一體化已經(jīng)是業(yè)內(nèi)一大研究方向。存算一并不是每個神經(jīng)元都能有效激活,這個時候稀疏計算可以4.2存算一體構建新型計算范式存算一體作為新型計算范式,基于在存儲原位實現(xiàn)計算的本質(zhì),打構,避免了頻繁的數(shù)據(jù)訪問和搬運帶來的功耗激增的問題,大大緩解了AI芯片性能提升的中國移動NICC新型智算中心技術體系白皮書a)模擬存算一體存算一體在NICC的主要應用是大模型推理??紤]規(guī)則稀疏性,以達到與存算陣列的最佳適配,并實現(xiàn)能效最大化。以復旦大學ISSCC2023結(jié)合對應的存內(nèi)陣列設計和電路實現(xiàn),能夠在28nm工藝下,達到現(xiàn)有Transformer加速中國移動NICC新型智算中心技術體系白皮書使用數(shù)字存內(nèi)計算和模擬存內(nèi)計算混合、雙生多bit等方法,實現(xiàn)INT8和BF16等混合精現(xiàn)階段的存算一體芯片在介質(zhì)優(yōu)化、集成規(guī)模、工具鏈支面臨諸多挑戰(zhàn),導致應用普及較慢,建議錨定智算核安全、管理等基礎設施虛擬化能力的專用處理器。面對智算業(yè)務場景,推理任務對網(wǎng)絡和存儲I/O的時延提出了更極致的性能需求,DPU可在智算領域解決三大1)統(tǒng)一云化管理:智算服務場景存在裸金屬、容器、虛節(jié)點并池管理提高計算資源利用效率,成為關鍵的業(yè)務痛點,DPU是最佳的解決方案。通過DPU可提供計算資源快速發(fā)放和回收等底層支撐能力,使彈性裸金屬特性和虛機一致,支持云盤啟動,完成靈活的存儲分配,實現(xiàn)存儲多租戶隔離并縮需要滿足多用戶并行使用時產(chǎn)生的海量數(shù)據(jù)讀取及中國移動NICC新型智算中心技術體系白皮書后對存儲系統(tǒng)提出更高的性能要求。DPU產(chǎn)品可以提供專用的高速存儲單元來處理和管理框架進行文件系統(tǒng)卸載,實現(xiàn)訓練數(shù)據(jù)格式統(tǒng)一化,實現(xiàn)不同來源的3)RDMA網(wǎng)絡協(xié)同優(yōu)化:智算集群由大量的智算服務器節(jié)點組成分布式系統(tǒng),節(jié)點間通及RDMA大規(guī)模隊列資源增強能力,借助DPU優(yōu)秀可編程特性,協(xié)同網(wǎng)絡側(cè)進行高性能為解決上述關鍵問題,新引入的DPU部件作為智算服務器的IO入口需對原有的網(wǎng)卡部件1)DPU替代服務器中存儲面及管理面網(wǎng)卡,作用在CPU域,原配中國移動NICC新型智算中心技術體系白皮書虛擬化技術從軟件實現(xiàn)向軟硬結(jié)合發(fā)展的結(jié)果,技術架構與云計算關系密切,存在耦合,DPU虛擬化技術棧在技術迭代中差異化發(fā)展,不同產(chǎn)品的同一技術的實現(xiàn)路徑多樣,軟件實現(xiàn)方式差異大。亟需解決業(yè)界異廠家DPU與云平臺軟件定向開發(fā)適配成本高的問題。建議圍繞管理、網(wǎng)絡、存儲、計算、安全五大軟件系統(tǒng),推動DPU軟件功能要求和交互接口在網(wǎng)絡側(cè),網(wǎng)絡技術創(chuàng)新需要與DPU深度協(xié)同。智算業(yè)務要求零丟包、低時延、高吞吐的在硬件側(cè),亟需優(yōu)先引導服務器整機層及DPU部件層標準化及通用化。重點圍繞服務器結(jié)構及供電、散熱、帶外納管方案、上下電策略四大方向進行統(tǒng)一,為DPU與上層軟件的深中國移動中國移動NICC新型智算中心技術體系白皮書5大模型訓練是一項復雜而耗時的任務,類似GPT-3級別的模型訓練數(shù)據(jù)集通常很大,無法1)數(shù)據(jù)上傳:大模型預訓練階段首先需要獲取訓練數(shù)據(jù)集,這些來自互聯(lián)網(wǎng)、書籍、論文的數(shù)據(jù)需要進行預處理和清洗,包括分詞、去除噪聲和非常以提供靈活的數(shù)據(jù)訪問方式,數(shù)據(jù)集通常會上傳到對象存儲中。大模型訓練的數(shù)據(jù)集可達中國移動NICC新型智算中心技術體系白皮書與TensorFlow、PyTorch等訓練框架的兼容性寫入操作,因此在模型訓練開始之前,需要把數(shù)據(jù)集3)數(shù)據(jù)讀取:數(shù)據(jù)集放入文件存儲后,還需要進行進一步預處理。CV類數(shù)據(jù)集通常需要先對圖片序列化并添加類別標簽、圖像尺寸等元數(shù)據(jù),自然語音類數(shù)進行切分,轉(zhuǎn)換為訓練框架實現(xiàn)代碼期望的采樣率和集準備就緒后,模型將基于隨機初始化的權重啟動訓練。整個數(shù)據(jù)集),4)歸檔寫回:由于HBM是易失性存儲,一旦在訓練過程中發(fā)生意外中斷,訓練數(shù)據(jù)將全開始訓練,從而節(jié)省大量的時間和經(jīng)濟成本。此外,文件存儲還用中的各種指標,包括損失函數(shù)的變化、準確率的提升等,以便后續(xù)中國移動NICC新型智算中心技術體系白皮書5)模型復制:模型訓練完成后,最終的模型權重會被寫入到文件存儲中保存,用于模型推智算中心存儲設施承載海量非結(jié)構化數(shù)據(jù),根據(jù)業(yè)務需求通常存儲三種傳統(tǒng)類型存儲,不同類型的存儲池相互分立,各自使用獨1)存儲性能:大模型訓練過程中,呈現(xiàn)出大量小文件小IO讀操作負載特征,是對傳統(tǒng)文降低GPU利用率,增加訓練耗時。目前業(yè)界通過升級分布式文件存儲節(jié)點硬件配置、提高3)存儲調(diào)度:超大規(guī)模的模型訓練,未來可能需要實現(xiàn)跨地域多中心并行訓練,以有效拉通整體的算力和存儲能力,這要求存儲具有跨地域統(tǒng)一命名空高的端到端數(shù)據(jù)交互性能,但是當前仍然受到存儲現(xiàn)有技術架文件存儲和對象存儲雖然架構和協(xié)議不同,但都使用元數(shù)據(jù)機制件存儲和對象存儲可合并升級為融合存儲。目前已經(jīng)有一些開源或商業(yè)的解決方案,例如接口實現(xiàn)兩套系統(tǒng)數(shù)據(jù)交互的優(yōu)化。使用融合存儲,用戶只需將數(shù)據(jù)中國移動NICC新型智算中心技術體系白皮書一的存儲架構,文件、對象等多種協(xié)議存儲可以更加緊密地協(xié)1)協(xié)議轉(zhuǎn)換語義損失:文件存儲和對象存儲采用不同的數(shù)據(jù)存儲范式,一些文件系統(tǒng)獨有在對象存儲中無法直接體現(xiàn);文件系統(tǒng)的部分訪問控制列表(ACLs)可能無法轉(zhuǎn)換到對象2)安全訪問策略差異:在文件存儲系統(tǒng)中,訪問控制通常是基于傳統(tǒng)的文件權限,例如原生協(xié)議融合指的是,制定統(tǒng)一的存儲框架,在底層將元數(shù)據(jù)和數(shù)據(jù)實體抽象1)共同設計一致的數(shù)據(jù)模型標準,兼容文件存儲和對象存儲的特性,最大程度地保留文件5.4全局統(tǒng)一存儲打破單體局限跨地域多數(shù)據(jù)中心之間的全局統(tǒng)一存儲,可以實現(xiàn)全局存儲資和高可用性。另一方面,可以通過負載均衡策略,使得應用程序可以就中國移動NICC新型智算中心技術體系白皮書而無需擔心數(shù)據(jù)存放的物理位置,為實現(xiàn)跨域的分布式并跨地域全局統(tǒng)一存儲當前還屬于中遠期的技術,處于起步探索跨地域長距離的數(shù)據(jù)交互時延受到網(wǎng)絡傳輸性能極限的約束,雖然就近選擇數(shù)據(jù)中心,基于性能和距離等因素對數(shù)據(jù)進行熱冷分級存大模型訓練任務對內(nèi)存和顯存帶來較大挑戰(zhàn),數(shù)據(jù)需要在計算、Cache、HBM、DDR內(nèi)存設備之間頻繁移動,缺乏統(tǒng)一內(nèi)存空間的尋址會導致編程模型變得復雜,也會限制設備之間的協(xié)作,必須通過手動管理數(shù)據(jù)傳輸和復制,因此增加了開發(fā)難度和錯誤率。同時,在為了降低以上問題對新型智算中心整體運行效率的影響第一,盡快完善滿足內(nèi)存池化技術的計算總線協(xié)議及子協(xié)議實現(xiàn)。完整、高效地實現(xiàn)CXL.顯存、緩存之間的一致性算法,確保共享內(nèi)存中的數(shù)據(jù)同步更新中國移動NICC新型智算中心技術體系白皮書備之間的協(xié)同工作接口,聚焦設備間高效協(xié)作和共享計算能力,減內(nèi)存,簡化數(shù)據(jù)傳輸和管理,顯著降低系統(tǒng)的復雜性和能耗。內(nèi)存池技術的發(fā)展將為AI領中國移動中國移動NICC新型智算中心技術體系白皮書6智算平臺的關鍵在于對智能算力進行高質(zhì)量管理,使能資源效入駐更易、算力協(xié)同更廣。智算平臺高質(zhì)量管理有四大關鍵技術于優(yōu)化資源效率的池化技術以及提高計算性能的分布式訓練框架算中心建設中引入并持續(xù)演進;從中遠期分析,應在進一步培育產(chǎn)品的同時,加快推動算力原生技術成熟以降低業(yè)務準入門檻,傳統(tǒng)智算中心的GPU利用率面臨巨大挑戰(zhàn),據(jù)公開數(shù)據(jù)顯示,已有智算中心,GPU平均中國移動NICC新型智算中心技術體系白皮書導致,傳統(tǒng)智算中心的GPU資源分配以整卡分配或虛擬化分配為主,粒度較粗,資源靜態(tài)智算資源池化平臺以“軟件定義”的方式,提供四大資源敏捷●隔空取物:基于高速無損網(wǎng)絡,跨節(jié)點調(diào)取智算資源,使CPU及GPU高中國移動NICC新型智算中心技術體系白皮書如3-17圖所示,Kubernetes作為池化平臺的技術底座,主要承擔CPU的管理調(diào)度和作全仿真GPU卡的原生運行時的池化運行時組件,AI應用可以像在真實環(huán)上述智算資源池化技術有效優(yōu)化了GPU等智能算力資源的管理效率,然而GPU/AI芯片種類繁多,其原生運行時又相對活躍、升級頻繁,對原生運另外一種流派的池化技術可規(guī)避基于API劫持技術所面臨的問題,該類技術將API劫持轉(zhuǎn)移至更底層的驅(qū)動層面實現(xiàn),該位置涉及的接口更少,可大幅度降低仿真工作復雜度,以這是一種完全與GPU無關的設備虛擬化和遠程處理方法,允許在沒有顯式軟件支持的情況下啟用新的硬件體系結(jié)構。該項技術分為前端和后端,前端監(jiān)視應用程序截至后端處理,后端則按應用程序申請的數(shù)量分配資源,或?qū)贸绦虿鹦校诒3执a、數(shù)據(jù)和執(zhí)行環(huán)境一致性的前提下使用這些機器上的智算源的敏捷化管理。與API劫持技術直接介入到AI應用訪問資源的流程、需要仿真原生運行時的API接口的方式不同,應用程序監(jiān)視器不介入到AI應用訪問資源的流程,而是通過更底層的系統(tǒng)調(diào)用隱含而廣泛的支持更多種類、型號的硬件和新的運行時功兩種方案在集成實現(xiàn)難度、性能表現(xiàn)、升級適配等方中國移動NICC新型智算中心技術體系白皮書新型智算中心需要集結(jié)泛在、多樣的計算系統(tǒng),形成一體化性構建相對獨立且排他的工具鏈系統(tǒng),適配集成各類AI框架形成分支版本,構成“中間件應用與特定系統(tǒng)的鎖定,難以在多個豎井生態(tài)系統(tǒng)間遷移部署,使算力運營商所集算力無法為智算應用呈現(xiàn)出一體化的資源,制約算力資源的高效運用,亟需融通業(yè)象模型;二是為開發(fā)者建立統(tǒng)一的編程模型及范式,實現(xiàn)轉(zhuǎn)譯機制及各類算力廠商軟硬件棧建立動態(tài)適配、統(tǒng)一納管及任務映射機制。從各廠商緊鎖定式工具鏈運行模式,從根本上解決上層應用對單一廠商中國移動NICC新型智算中心技術體系白皮書配、聯(lián)合測試、標準建設等工作,希望與產(chǎn)、學、分布式訓練框架是搭建在大型算力資源池基礎上的用于并行務的一組工具集合,其將訓練任務劃分為多個子任務,通過在當前業(yè)界分布式訓練框架呈現(xiàn)百花齊放現(xiàn)狀,一方面是以硬件廠家主導研發(fā)的框架,這些框架特點在于與其硬件配合度較高,能夠較好地發(fā)揮硬件本身優(yōu)勢,包括英偉達然而,設備之間的計算速度可能不同,導致一些設備比其他設備中國移動NICC新型智算中心技術體系白皮書使其能夠適應更大規(guī)模和更復雜的深度學習模型和數(shù)據(jù)集,通過在硬件、方面持續(xù)創(chuàng)新,進一步推動分布式訓練技術的發(fā)展。未來分布式訓練框架化設計并行訓練策略以滿足超大規(guī)模模型訓練需求,并考慮存儲資源限制等瓶頸,通過引入模型壓縮、輕量化、異步訓練等技障或通信中斷等問題,包括設計更優(yōu)的任務檢支持同時處理多個數(shù)據(jù)模態(tài)和執(zhí)行多個任務,通過提供可適應中國移動NICC新型智算中心技術體系白皮書在線學習和增量學習的能力。未來的分布式訓練框架將支持在跨集群訓練、邊緣訓推、容錯可靠性等方面不斷優(yōu)化完善,簡部分智算中心則存在大量閑置資源沒有充分利用的情況。如何有算力,實現(xiàn)高性能、高可靠的跨域分布式并行訓練,將成為推動跨智算中心的分布式并行訓練目前已成為學界一大研究方向,統(tǒng)一納管和調(diào)度,實現(xiàn)跨域的模型訓練,隨著智算中心內(nèi)部算力1)跨智算中心可用傳輸帶寬有限,周期性的大流量通信引發(fā)通信瓶頸。對于多智算中心間但異地場景傳輸距離遠不具備光纖直連條件,通常使用廣域網(wǎng)專線連接要周期性同步模型參數(shù),隨著模型規(guī)模增大,智算中心間通信將產(chǎn)生嚴2)跨智算中心算力和網(wǎng)絡資源差異分布且動態(tài)變化,易產(chǎn)生同步阻塞,拉低系統(tǒng)效率。不同智算中心算力和網(wǎng)絡配置不同,將造成計算和傳輸步調(diào)不協(xié)調(diào)。對于跨域低、帶寬小的計算節(jié)點將拖慢模型同步的完成時間并拉低系統(tǒng)訓練效率,產(chǎn)外,廣域網(wǎng)的帶寬也要分配給其他通信業(yè)務,帶寬資源實時競爭,資源的動綜上,優(yōu)化模型傳輸帶寬開銷和確保模型訓練性能是跨域模型中國移動NICC新型智算中心技術體系白皮書的資源抽象,以支持所有的并行策略(數(shù)據(jù)并行、流水并行、具備高效、通用和硬件感知等能力,實現(xiàn)訓練任務拆分、任務調(diào)度系統(tǒng)可實時獲悉不同智算中心的硬件資源情況,監(jiān)控節(jié)點前的分布式機器學習系統(tǒng)普遍采用精確傳輸服務協(xié)議,無差別地將所有梯度收斂影響不同,無需傳輸所有梯度信息即可完成模型訓練。因此,設計一種頸。模型壓縮可以顯著減少每次模型同步傳輸?shù)臄?shù)據(jù)量,典型的方案包括量是用有效的數(shù)據(jù)表示壓縮參數(shù)或梯度,減少每個值的占用位數(shù),稀疏則是通梯度參與梯度聚合與模型更新,避免發(fā)送不必要的信息。設計滿足跨域帶寬中國移動中國移動NICC新型智算中心技術體系白皮書7倍以上,這意味著服務器散熱量會大大增加,單機柜的功率密度和散熱量也大幅增長。與此同時,半導體元器件的溫度每升高10度,可靠性就降低一半。據(jù)統(tǒng)計,液冷技術可以有效地將熱量從設備中導出,相比空氣能夠傳熱更快(提升20~25倍能),高數(shù)據(jù)中心的設備部署密度,實現(xiàn)空間資源的高效利用(液冷機柜密度3~4倍,相同算力下節(jié)省機房面積約75%另一方面將有助于提高芯片可靠性,保證芯中國移動NICC新型智算中心技術體系白皮書液冷方案包括冷板式、浸沒式和噴淋式三種技術。冷板式液體無需接觸發(fā)熱的器件,通過裝有液體的冷板導熱,借助液體循環(huán)帶走熱接觸式冷卻,將發(fā)熱器件完全浸沒在冷卻液中,發(fā)熱器件與液體直接接觸據(jù)工質(zhì)是否產(chǎn)生相變又分為單相液冷和相變液冷。噴淋式液冷是將冷卻液件表面或與發(fā)熱器件接觸的擴展表面上,吸熱后排走,再與外部冷源進行單相浸沒式是目前主流方案。冷板式液冷部件兼容性強,機房改造、運維與現(xiàn)有基礎設施不兼容、生態(tài)不完善等問題,隨著國產(chǎn)冷卻液性能的提升考慮到大模型訓練場景散熱和可靠性需求,兼顧機房空間、設備1)統(tǒng)一標準問題:液冷系統(tǒng)涉及到的部件之間兼容性存在標準缺失,各家服務器設備、冷卻液、制冷管路、供配電等產(chǎn)品形態(tài)各異、接口不同2)可靠性問題:除了服務器本身,冷卻液流經(jīng)的管路也存在腐蝕和泄露的風險,冷卻液對::管路接口型號等參數(shù),形成行業(yè)標準,不同廠商的液冷機柜和同型號CDU對接,實現(xiàn)異廠2)在冷卻液中添加含有防腐蝕、防凍功能的緩蝕劑,比如乙二醇溶液等,降低管道的泄露中國移動NICC新型智算中心技術體系白皮書1)推動服務器和機柜解耦:通用冷板式液冷服務器已被行業(yè)廣泛接受,生態(tài)趨于完善,例景下,產(chǎn)業(yè)生態(tài)標準化不足,產(chǎn)品設計差異較大,冷板能力、流服務器解耦難度較高,導致產(chǎn)品競爭不充分,采購成本高,同時給方面,必須采取健康防護措施,對冷卻液的更換和排放必須統(tǒng),進一步降低冷板式液冷數(shù)據(jù)中心的散熱。協(xié)同制冷和散熱,中國移動中國移動N
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 住房泥水工程裝修合同(3篇)
- DB31∕T 578-2011 飼料中玉米赤霉醇類物質(zhì)的測定 液相色譜-串聯(lián)質(zhì)譜法
- 石化防火防爆安全技術措施及消防安全檢查.07.13
- 摩托車Z-oneR賽道版、Z-oneT旅行版產(chǎn)品定位報告
- 如何建立培訓體系課件
- 上海大眾績效管理項目培訓
- 商業(yè)銀行個人客戶經(jīng)理工作流程
- 外賣服務外包合同
- 公司股權無償轉(zhuǎn)讓協(xié)議書
- 建設工程發(fā)包合同
- 《人工智能基礎》課件-AI的前世今生:她從哪里來
- 學校危險化學品自查記錄表
- 三菱gx developer用戶操作手冊
- 家譜樹形圖模板
- 工程交付培訓記錄表
- 髖膝關節(jié)置換術后X線評價-PPT課件
- 蓋梁抱箍法施工計算書蓋梁抱箍法施工方案
- JIS G4305-2021 冷軋不銹鋼板材、薄板材和帶材
- (完整版)涼亭施工方案
- 第一章 - 免疫規(guī)劃信息管理系統(tǒng)
- 生物安全手冊(共39頁)
評論
0/150
提交評論