




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2024年面向超萬卡集群的新型智算技術(shù)白皮書(2024年)第一章:超萬一卡集群背景與趨勢自ChatGPT面世以來,大模型步入了迅猛發(fā)展期,型層出不窮,爆點頻出ScalingLaw[1]不斷得到驗證,高速發(fā)展的人工智能對數(shù)字經(jīng)濟產(chǎn)生了巨大賦能作用。大模型所使用的數(shù)據(jù)量和參數(shù)規(guī)模呈現(xiàn)“指數(shù)級”增長,2018年BERT模型參數(shù)量僅有1.1億,到2021年GPT-3達到了1750億。隨著MixtureofExperts(MOE)[2]等先進模型結(jié)構(gòu)的出現(xiàn),模型參數(shù)邁入萬億規(guī)模。預(yù)計在未來的2-3年,隨著AI技術(shù)的進步和算力提升,ScalingLaw還將延續(xù),助推模型參數(shù)向十萬億進軍。大模型能力的不斷躍遷,使得超長序列應(yīng)用、文生視頻、文生音頻等基于多模態(tài)的應(yīng)用層出不窮,大模型在各個領(lǐng)域均展現(xiàn)出了強大的智能化能力,“AI+”對生產(chǎn)生活帶來了巨大影響。ChatGLM、LLaMA[3]、Gemini等大模型的發(fā)布更加堅定了科技界持續(xù)摸高大模型能力天花板的決心;文生視頻多模態(tài)大模型Sora的問世更加引爆了行業(yè)熱點,促使業(yè)界在大模型的技術(shù)、規(guī)模和應(yīng)用上不斷挖掘,以期能創(chuàng)造下一輪爆點。AI技術(shù)的發(fā)展帶動產(chǎn)業(yè)大規(guī)模升級的同時,也帶來了對巨量算力和能源的需求。據(jù)公開信息報道,GPT-3訓(xùn)練所消耗的電力,相當(dāng)于美國約121個家庭一整年的用電量。GPT-4擁有16個專家模型共1.8萬億參數(shù),一次訓(xùn)練需要在大約25000個A100上訓(xùn)練90到100天。大模型對底層算力、空間、水電能源產(chǎn)生極大消耗,對新一代智算設(shè)施的設(shè)計要求也日益嚴(yán)苛。更高密度的算存硬件、高性能無阻塞的網(wǎng)絡(luò)連接以及更高并行度的通信和計算范式成為新一代智算中心的設(shè)計目標(biāo),新型智算中心(NICC,NewIntelligentComputingCenter)[4]相關(guān)技術(shù)將繼續(xù)被推向新的高度。人工智能新紀(jì)元,算力為企業(yè)科技創(chuàng)新和轉(zhuǎn)型提供有力支撐。在全球化的科技競爭格局中,領(lǐng)先的科技公司正積極部署千卡乃至超萬卡規(guī)模的計算集群,既是展現(xiàn)其在人工智能、數(shù)據(jù)分析、大模型研發(fā)等前沿領(lǐng)域的技術(shù)實力,也向外界展示了公司對未來科技趨勢的深遠布局。在國際舞臺上,諸如Google、Meta、Microsoft等科技巨頭,正利用超萬卡集群推動其在基座大模型、智能算法研發(fā)及生態(tài)服務(wù)等方面的技術(shù)創(chuàng)新。如Google推出超級計算機A3VirtualMachines,擁有26000塊NvidiaH100GPU,同時基于自研芯片搭建TPUv5p8960卡集群。Meta在2022年推出了一個擁有16,000塊NvidiaA100的A|研究超級集群AlResearchSuperCluster,2024年初又公布2個24576塊NvidiaH100集群,用于支持下一代生成式A!模型的訓(xùn)練。這些企業(yè)通過成千上萬臺服務(wù)器組成的集群計算優(yōu)勢,不斷優(yōu)化服務(wù)架構(gòu),提升用戶體驗,加速新技術(shù)的市場轉(zhuǎn)化與應(yīng)用。在國內(nèi),通信運營商、頭部互聯(lián)網(wǎng)、大型AI研發(fā)企業(yè)、AI初創(chuàng)企業(yè)等均在超萬卡集群的建設(shè)和使用過程中不斷推動技術(shù)革新。通信運營商作為國家算力基礎(chǔ)設(shè)施建設(shè)的中堅力量,利用其龐大的機房資源和配套設(shè)施優(yōu)勢,正加速推進超萬卡集群智算中心的建設(shè)。這一舉措不僅為運營商自身的大模型研發(fā)提供強大的計算支持,同時也為政府、高校和企業(yè)客戶帶來了前所未有的高質(zhì)量智算服務(wù)。隨著智算中心建設(shè)的不斷深入,運營商站在連接技術(shù)創(chuàng)新與行業(yè)應(yīng)用的關(guān)鍵位置,其在推動社會數(shù)字化轉(zhuǎn)型和智能化升級中的引領(lǐng)作用日益凸顯。頭部互聯(lián)網(wǎng)企業(yè)作為技術(shù)創(chuàng)新的先鋒,通過建設(shè)超萬卡集群來加速其在云計算、大數(shù)據(jù)分析和大模型研發(fā)等領(lǐng)域的突破。字節(jié)跳動、阿里巴巴、百度為代表的互聯(lián)網(wǎng)公司在積極推進超萬卡集群的建設(shè)。其中,字節(jié)跳動搭建了一個12288卡Ampere架構(gòu)訓(xùn)練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng)用于訓(xùn)練大語言模型[5]。通過集群的強大計算力,這些頭部互聯(lián)網(wǎng)公司不僅加速了自身業(yè)務(wù)的數(shù)字化轉(zhuǎn)型,也為國內(nèi)科技產(chǎn)業(yè)的發(fā)展貢獻了創(chuàng)新動力。大型AI研發(fā)企業(yè)出于對大規(guī)模模型訓(xùn)練和復(fù)雜算法計算的迫切需求,正在積極投建超萬卡集群。這些公司作為人工智能領(lǐng)域的先行者,正積極投建超萬卡集群以滿足其大模型的計算需求。如科大訊飛,2023年建設(shè)成首個支持大模型訓(xùn)練的超萬卡集群算力平臺“飛星一號”。此類集群的建立,不僅為這些企業(yè)在AI領(lǐng)域的深入研究提供了必須的算力支撐,也為他們在智算服務(wù)的商業(yè)應(yīng)用中贏得了先機。AI初創(chuàng)企業(yè)則更傾向于采取靈活的租用模式,利用已有的超萬卡集群來支持其創(chuàng)新項目。這些企業(yè)為了能夠?qū)崿F(xiàn)應(yīng)用和投入平衡,大多對基礎(chǔ)設(shè)施采取靈活的租用模式,利用超萬卡集群的強大計算能力來支持其創(chuàng)新項目。這種模式降低了初創(chuàng)企業(yè)的初始投資門檻,使他們能夠快速獲得高性能的計算資源,加速產(chǎn)品的研發(fā)和迭代。整體而言,無論是通信運營商、頭部互聯(lián)網(wǎng)企業(yè)、大型AI研發(fā)企業(yè)還是AI初創(chuàng)企業(yè),都在通過自建或使用超萬卡集群加速其在人工智能領(lǐng)域的技術(shù)突破和產(chǎn)業(yè)創(chuàng)新。隨著超萬卡集群建設(shè)的不斷深入,我們預(yù)見這一趨勢將為整個智算產(chǎn)業(yè)的發(fā)展帶來深遠影響。第二章:超方卡集群面臨的挑戰(zhàn)當(dāng)前,超萬卡集群的建設(shè)仍處于起步階段,主要依賴英偉達GPU及配套設(shè)備實現(xiàn)。英偉達作為全球領(lǐng)先的GPU供應(yīng)商,其產(chǎn)品在大模型訓(xùn)練上有較大優(yōu)勢。得益于政策加持和應(yīng)用驅(qū)動,國產(chǎn)A1芯片在這兩年取得長足進步,但在整體性能和生態(tài)構(gòu)建方面仍存在一定差距。構(gòu)建一個基于國產(chǎn)生態(tài)體系、技術(shù)領(lǐng)先的超萬卡集群仍面臨諸多挑戰(zhàn)。2.1極致算力使用效率的挑戰(zhàn)大量實踐表明,針對大模型分布式訓(xùn)練場景,集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,卡間和節(jié)點間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)是追求集群極致有效算力的關(guān)鍵挑戰(zhàn)。我們把集群有效算力分解為“GPU利用率”和“集群線性加速比”兩個重要指標(biāo),其中“GPU利用率”受限于芯片架構(gòu)和制程、內(nèi)存和I/0訪問瓶頸、卡間互聯(lián)帶寬和拓撲、芯片功耗等因素,“集群線性加速比”則取決于節(jié)點間的通信能力、并行訓(xùn)練框架、資源調(diào)度等因素,兩者的最大化發(fā)揮將最終表現(xiàn)為模型訓(xùn)練效率提升和成本降低。在超萬卡集群中,需要運用系統(tǒng)工程方法,通過對超萬卡集群網(wǎng)絡(luò)的精細化設(shè)計、軟硬件全棧整合優(yōu)化,綜合提升集群算力使用效率。2.2海量數(shù)據(jù)處理的挑戰(zhàn)千億模型的訓(xùn)練需要對PB量級的數(shù)據(jù)集使用多種協(xié)議進行處理,未來萬億模型的訓(xùn)練對checkpoint的讀寫吞吐性能更是要求高達10TB/S,現(xiàn)有智算存儲系統(tǒng)在協(xié)議處理、數(shù)據(jù)管理、吞吐性能等方面面臨諸多挑戰(zhàn):協(xié)議處理層面:傳統(tǒng)智算存儲系統(tǒng)按照塊、文件、對象等不同協(xié)議建設(shè)分立存儲池,多套不同協(xié)議存儲系統(tǒng)之間需要來回拷貝數(shù)據(jù),影響數(shù)據(jù)處理效率,浪費存儲空間,增加運維難度;吞吐性能層面:傳統(tǒng)智算的分布式文件存儲僅支持百節(jié)點級別擴展,節(jié)點規(guī)模小,難以提供超萬卡集群所需的10TB/S以上的數(shù)據(jù)吞吐性能;數(shù)據(jù)管理層面:傳統(tǒng)智算的數(shù)據(jù)存儲需人工干預(yù),進行冷熱分類,并在高性能和普通性能存儲集群之間遷移??缦到y(tǒng)的數(shù)據(jù)管理和遷移降低了大模型下海量數(shù)據(jù)處理效率,還會額外占用網(wǎng)絡(luò)帶寬和計算節(jié)點資源。因此,超萬卡集群的存儲系統(tǒng)需要通過協(xié)議融合、自動分級等一系列技術(shù)手段提供高效的數(shù)據(jù)共享和處理能力,滿足大模型訓(xùn)練的需求。2.3超大規(guī)模互聯(lián)的挑戰(zhàn)模型規(guī)模擴大到萬億量級,數(shù)據(jù)的吞吐量和計算量已遠遠超過目前最強單機單卡能力,多機多卡互聯(lián)和并行訓(xùn)練策略成為必須。以在超萬卡集群部署1.8萬億GPT-4為例,在大模型訓(xùn)練過程中,每輪迭代計算都涉及前反向傳播算法的計算和通信,這對超萬卡集群的ScaleOut和ScaleUP網(wǎng)絡(luò)提出極大挑戰(zhàn)。在Scale0ut互聯(lián)層面,網(wǎng)絡(luò)承載數(shù)據(jù)并行(DataParallel,DP)和流水線并行(PipelineParallel,PP)流量,參數(shù)面網(wǎng)絡(luò)帶寬需達到200Gbps至400Gbps,數(shù)據(jù)面網(wǎng)絡(luò)需要配備100Gbps帶寬,保證數(shù)據(jù)讀取不成為訓(xùn)練瓶頸。此外,參數(shù)面網(wǎng)絡(luò)還需要應(yīng)對因多租戶多任務(wù)并行訓(xùn)練通信特征不規(guī)整、上下行ECMP(EqualCostMultiPath)選路不均衡而引發(fā)的高速大象流的交換沖突和擁塞。在Scaleup互聯(lián)層面,由于MoE專家并行和張量并行(TensorParallel,TP)的通信無法被計算掩蓋,不僅要求卡間互聯(lián)帶寬達到幾百甚至上千GB的量級,而且應(yīng)突破當(dāng)前單機8卡的限制,以支持更大參數(shù)量的型訓(xùn)練。此外,Scaleup互聯(lián)還需要保持高頻度、低時延、無阻塞的通信式。2.4集群高可用和易運維挑戰(zhàn)超萬卡集群承載萬億模型訓(xùn)練意味著千萬器件的滿負荷高速運轉(zhuǎn),任一部件不可恢復(fù)的失效都可能導(dǎo)致訓(xùn)練中斷,帶來超萬卡集群高可用和易運維的關(guān)鍵挑戰(zhàn):千萬器件維護管理難度大:超萬卡集群由數(shù)千臺智算服務(wù)器+數(shù)千臺交換機+數(shù)千臺存儲設(shè)備以及數(shù)萬根光纖/數(shù)萬顆光模塊構(gòu)成,訓(xùn)練任務(wù)涉及千萬顆元器件滿負荷高速運轉(zhuǎn),基于固有的元器件硬件失效率和海量的器件規(guī)模帶來硬件故障頻發(fā),涉及到的軟硬件故障模式繁雜,故障管理挑戰(zhàn)巨大;復(fù)雜系統(tǒng)故障定位難度大:萬億模型訓(xùn)練的過程是各個軟硬組件精密配合的過程,一旦發(fā)生問題定界定位復(fù)雜。業(yè)界典型硬件故障定位需1~2天,復(fù)雜應(yīng)用類故障定位可能長達數(shù)十天??焖僮詣佣ń缍ㄎ荒芰π枰Y(jié)合實際運維經(jīng)驗進行系統(tǒng)性積累和針對性持續(xù)改進。高負荷運行故障概率高:萬億大模型訓(xùn)練至TTA(TimeToAccuracy)一般需要一百天7x24小時滿負荷運行。而硬件MTBF(MeanTimeBetweenFailure)伴隨集群規(guī)模的增長越來越短,萬億大模型訓(xùn)練作業(yè)中斷頻發(fā),業(yè)界超萬卡集群持續(xù)穩(wěn)定運行僅數(shù)天,斷點續(xù)訓(xùn)恢復(fù)緩慢,直接影響模型訓(xùn)練效率。超萬卡集群急需支持更有效、更快速、影響更小的自動斷點續(xù)訓(xùn)功能。2.5高能耗高密度機房設(shè)計的挑戰(zhàn)超萬卡集群對機房配套設(shè)施的需求相對于傳統(tǒng)IDC云數(shù)據(jù)中心發(fā)生重大變化,對供電、承重、機房潔凈度和走線架設(shè)計等有極高要求:在供電方面,當(dāng)芯片TDP設(shè)計功率上升至400~700W,單柜功率從原先的7~8KW上升至40KW甚至60KW,集群整體功耗將攀升至數(shù)十~上百MW,機房需要進行功率提升改造,并配合進行散熱能力提升改造;在承重方面,由于集群規(guī)模翻番增長,為了保障單位空間的算力密度,需要引入液冷方案,確保智算芯片的高速運行,單機柜重量達1-2噸,對機房承重提出高標(biāo)準(zhǔn)要求;在機房潔凈度方面,由于超萬卡集群參數(shù)面網(wǎng)絡(luò)使用大量100G、200G甚至400G的高速光模塊,高速光模塊本身是一個集成度極高的器件,裸露的光纖通道和內(nèi)部器件都比較脆弱,要盡可能避免落入灰塵,降低故障率。因此機房需要綜合考量制冷和通風(fēng)方案,在設(shè)備側(cè)保持較高的潔凈度標(biāo)準(zhǔn),確保后期集群的穩(wěn)定運行。在線纜布放方面,由于超萬卡集群的算力密度更高、功耗密度更高,線纜的布放量也隨之增大。以一個1.8萬卡的智算集群為例,需要布放10萬量級的線纜,這將對走線架的寬度和承重帶來新的挑戰(zhàn)??梢?,超萬卡集群提出了對高壓直流供電技術(shù)、高效液冷散熱技術(shù)、超大規(guī)模網(wǎng)絡(luò)工程便捷落地的剛性需求。這就要求機房配套設(shè)施在建設(shè)之初,提前對機房供電、制冷、承重等進行配套設(shè)計,以更好的支撐超萬卡集群快速建設(shè)、便捷部署和長期穩(wěn)定運行。第三章:超萬卡集群的核心設(shè)計原則和總體架構(gòu)3.1超萬卡集群的核心設(shè)計原則在大算力結(jié)合大數(shù)據(jù)生成大模型的發(fā)展路徑下,超萬卡集群的搭建不是簡簡單單的算力堆疊,要讓數(shù)萬張GPU卡像一臺“超級計算機”一樣高效運轉(zhuǎn),超萬卡集群的總體設(shè)計應(yīng)遵循以下五大原則:堅持打造極致集群算力:基于Scale-up互聯(lián)打造單節(jié)點算力峰值,基于Scale-out互聯(lián)將單集群規(guī)模推高至萬卡以上,兩者疊加構(gòu)建超萬卡集群的大算力基座;堅持構(gòu)避協(xié)同調(diào)優(yōu)系統(tǒng):依托超大規(guī)模的算力集群,通過DP/PP/TP/EP等各種分布式并行訓(xùn)練策略,持續(xù)提升有效算力,實現(xiàn)極致的計算通信比,最大化模型開發(fā)效率;堅持實現(xiàn)長穩(wěn)可,訓(xùn)練:具備自動檢測和修復(fù)軟硬件故障的能力,面向千方器件滿負荷運行系統(tǒng),持續(xù)提升MTBF和降低MTTR并實現(xiàn)自動斷點續(xù)訓(xùn)能力,支持千億稠密、萬億稀疏大模型百天長穩(wěn)訓(xùn)練,保證系統(tǒng)穩(wěn)定性和魯棒性;堅持提供靈活算力供給:支持集群算力調(diào)度,提供靈活彈性的算力供給和隔離手段,實現(xiàn)訓(xùn)練和推理資源的按需調(diào)配,保持單集群大作業(yè)和多租戶多任務(wù)并行訓(xùn)練性能持平;·堅持推進綠色低磁碳發(fā)展:持續(xù)推進全套液冷解決方案在超方卡集群的應(yīng)用,追求極致綠色算力能效比(FLOPs/W)和極低液冷PUE至1.10以下。3.2超方卡集群的總體架構(gòu)設(shè)計超萬卡集群的總體架構(gòu)由四層一域構(gòu)成,四層分別是機房配套、基礎(chǔ)設(shè)施、智算平臺和應(yīng)用使能,一域是智算運營和運維域。機房配套層:匹配超萬卡集群高密集約的建設(shè)模式,機房配套設(shè)施需重點考慮高效供電、制冷設(shè)計、樓板承重和走線架設(shè)計等?;A(chǔ)設(shè)施層:算、網(wǎng)、存三大硬件資源有機配合,達成集群算力最優(yōu)。面向算力,CPU、GPU、DPU三大芯片協(xié)同,最大化發(fā)揮集群計算能力;面向網(wǎng)絡(luò),參數(shù)面、數(shù)據(jù)面、業(yè)務(wù)面、管理面獨立組網(wǎng),參數(shù)面/數(shù)據(jù)面采用大帶寬ROCE交換和二層無阻塞CLOS組網(wǎng)滿足大象流,支持參數(shù)面負載均衡和多租安全隔離;面向存儲,引入融合存儲和分級存儲支持無阻塞數(shù)據(jù)并發(fā)訪問。智算平臺層:采用K8S,對上提供以裸金屬和容器為主的集群資源。在對集群資源進行納管的基礎(chǔ)上,進一步實現(xiàn)大規(guī)模集群的自動化精準(zhǔn)故障管理,以達成高效訓(xùn)練、長穩(wěn)運行的目標(biāo)。面向未來,考慮集群中引入異廠家GPU芯片,為避免智算碎片化問題,引入算力原生,實現(xiàn)應(yīng)用跨架構(gòu)遷移和異構(gòu)混訓(xùn)等平臺能力?!?yīng)用使能層:包括模型訓(xùn)練框架和開發(fā)工具集兩個模塊,一方面基于現(xiàn)有開源框架能力,進行分布式訓(xùn)練調(diào)優(yōu),面向未來開展自動分布式訓(xùn)練框架設(shè)計,積案經(jīng)驗,實現(xiàn)對通信和計算重疊的優(yōu)化、算子融合以及網(wǎng)絡(luò)性能的高效調(diào)優(yōu);另一方面,研發(fā)沉淀數(shù)據(jù)服務(wù)、模型部署開發(fā)等工具集,逐步實現(xiàn)由人工處理到基于工具對外提供自動化模型研發(fā)能力的轉(zhuǎn)變。智算運營和運維城:支持超萬卡集群高效集合通信和調(diào)度。支持按租戶靈活資源發(fā)放和任務(wù)調(diào)度,支持多任務(wù)并行訓(xùn)練。第四章:超萬卡集群關(guān)鍵技術(shù)4.1集群高能效計算技術(shù)隨著大模型從千億參數(shù)的自然語言模型向萬億參數(shù)的多模態(tài)模型升級演進,超萬卡集群驅(qū)需全面提升底層計算能力。具體而言,包括增強單芯片能力、提升超節(jié)點計算能力、基于DPU(DataProcessingUnit)實現(xiàn)多計算能力融合以及追求極致算力能效比。這些系統(tǒng)性的提升將共同支持更大規(guī)模的模型訓(xùn)練和推理任務(wù),滿定迅速增長的業(yè)務(wù)需求。4.1.1單芯片能力超萬卡集群中,單芯片能力包括單個GPU的計算性能和GPU顯存的訪問性能。在單個GPU計算性能方面,首先需要設(shè)計先進的GPU處理器,在功耗允許條件下,研發(fā)單GPU更多并行處理核心,努力提高運行頻率。其次,通過優(yōu)化高速緩存設(shè)計,減少GPU訪問內(nèi)存延退,進一步提升單GPU芯片運行效率。第三,優(yōu)化浮點數(shù)表示格式,探索從FP16到FP8浮點數(shù)的表示格式,通過在芯片中引入新的存儲方式和精度,在保持一定精度條件下,大幅提升計算性能。最后,針對特定計算任務(wù),可在GPU芯片上集成定制化的硬件加速邏輯單元,這種基于DSA(DomainSpecificArchitecture)的并行計算設(shè)計,可提升某些特定業(yè)務(wù)領(lǐng)域的計算速度。在GPU顯存訪問性能方面,為了將萬億模型的數(shù)據(jù)布放在數(shù)萬張GPU顯存上,要求顯存支持高帶寬、大容量的能力,確保計算單元能夠高效完成訪存任務(wù),維持系統(tǒng)的低能耗運行。為便捷訪問顯存數(shù)據(jù),建議GPU顯存采用基于2.5D/3D堆疊的HBM技術(shù)[6],減少數(shù)據(jù)傳輸距離,降低訪存延遲,提升GPU計算單元與顯存之間的互聯(lián)效率。通過這些技術(shù)的實施,超方卡集群不僅能夠為智算中心提供強大的單卡算力處理能力,還能為未來更大規(guī)模的模型訓(xùn)練和推理任務(wù)奠定堅實的硬件基礎(chǔ)。4.1.2超節(jié)點計算能力針對萬億模型的訓(xùn)練與推理任務(wù),特別是在超長序列輸入和MoE架構(gòu)的應(yīng)用背景下,應(yīng)重點優(yōu)化巨量參數(shù)和龐大數(shù)據(jù)樣本的計算效率,滿足由此引發(fā)的AIl2AlI通信模式下的GPU卡間通信需求。為此,建議超萬卡集群的改進策略集中在以下幾個關(guān)鍵領(lǐng)域:加速推進超越單機8卡的超節(jié)點形態(tài)服務(wù)器為滿足萬億或更大參數(shù)量模型的部署需求,建議產(chǎn)業(yè)界致力于研制突破單機8卡限制的超節(jié)點形態(tài)服務(wù)器,通過利用提高GPU南向的Scaleup互聯(lián)能力,提升張量并行或MoE并行對大模型訓(xùn)練任務(wù)的收益,實現(xiàn)性能躍升,縮短訓(xùn)練總時長,實現(xiàn)大模型訓(xùn)練整體性能的優(yōu)化。加快引入面向Scaleup的Switch芯片建議在節(jié)點內(nèi)集成支持Scaleup能力的Switch芯片,以優(yōu)化GPU南向的互聯(lián)效率和規(guī)模,增強張量并行或MoE并行的數(shù)據(jù)傳輸能力。通過引入節(jié)點內(nèi)的Switch芯片,以增強GPU卡間的點對點(PointtoPoint,P2P)帶寬,有效提升節(jié)點內(nèi)的網(wǎng)絡(luò)傳輸效率,滿足大模型日益增長的GPU互聯(lián)和帶寬需求,為大規(guī)模并行計算任務(wù)提供強有力的硬件支持。優(yōu)化GPU卡間互聯(lián)協(xié)議以實現(xiàn)通信效率躍升建議對GPU卡間互聯(lián)協(xié)議進行系統(tǒng)性優(yōu)化和重構(gòu),以提升AlI2All模式下的通信效率。通過重新設(shè)計卡間通信過程中的數(shù)據(jù)報文格式、引l入CPO(Co-PackagedOptics)/NPO(NearPackagedOptics)、提高和優(yōu)化SerDes傳輸速率、優(yōu)化擁塞控制和重傳機制以及多異構(gòu)芯片C2C(Chip-to-Chip)封裝等多種途徑,提高超萬卡集群的GPU卡間互聯(lián)的網(wǎng)絡(luò)利用率,減少通信時延,實現(xiàn)帶寬能力躍升,從而支持所需的更高頻次、更大帶寬和更低延遲通信特性。4.1.3多計算能力融合面向超萬卡集群,考慮到智算中心內(nèi)部成倍增長的數(shù)據(jù)交換需求,通過堆疊CPU資源來處理網(wǎng)絡(luò)數(shù)據(jù)的做法無疑是低效且昂貴的,對此,智算中心的計算架構(gòu)需要轉(zhuǎn)變方向,將原本運行在CPU、GPU中的數(shù)據(jù)處理任務(wù)卸載至具有層級化可編程、低時延網(wǎng)絡(luò)、統(tǒng)一管控等特性的DPU上執(zhí)行,在大幅擴展節(jié)點間算力連接能力的同時,釋放CPU、GPU的算力,降低節(jié)點間的CPU、GPU協(xié)作成本,支撐集群發(fā)揮更大的效能。具體地,可以對智算中心進行軟硬一體重構(gòu),打造計算、存儲、網(wǎng)絡(luò)、安全、管控五大引擎,定義標(biāo)準(zhǔn)化的DPU片上驅(qū)動內(nèi)核:計算引擎卸載加速1/O設(shè)備的數(shù)據(jù)路徑與控制路徑,面向節(jié)點提供標(biāo)準(zhǔn)化的virtio-net(Virtual1/ONetwork)、virtio-blk(Virtiual1/Oblock)后端接口,屏蔽廠商專用驅(qū)動。存儲引擎在DPU上實現(xiàn)存儲后端接口,可基于傳統(tǒng)TCP/IP網(wǎng)絡(luò)協(xié)議?;騌DMA(RemoteDirectMemoryAccess)網(wǎng)絡(luò)功能連接塊存儲集群、對象存儲集群、文件存儲集群及文件存儲集群,將節(jié)點的全類型存儲任務(wù)卸載至DPU中完成。網(wǎng)絡(luò)引擎將虛擬交換機卸載至DPU上,采用標(biāo)準(zhǔn)的流表和卸載接口實現(xiàn)網(wǎng)絡(luò)流量的卸載,全線速釋放硬件性能;同時集成RDMA網(wǎng)絡(luò)功能,降低多機多卡間端到端通信時延,提升多機間端到端通信帶寬至400G級別,構(gòu)建節(jié)點間數(shù)據(jù)交換的“高速通道”。安全引擎通過信任根機制以及標(biāo)準(zhǔn)的IPsec等加密通訊協(xié)議對系統(tǒng)和多租戶網(wǎng)絡(luò)進行安全防護,并基于DPU提供有效的卸載方案。管控引擎屏蔽裸金屬、虛擬機和容器等算力單元的形態(tài)差異,實現(xiàn)DPU資源統(tǒng)一管理和全鏈路管控運維。上述五大引擎為藍圖,中國移動于2020開始打造具有自主知識產(chǎn)權(quán)的磐石DPU,并于2021年正式推出磐石DPU版本。經(jīng)過移動云現(xiàn)網(wǎng)的打磨,中國移動持ASIC架構(gòu),旨在圍繞磐石DPU軟硬融合重構(gòu)算力基礎(chǔ)設(shè)施,重新定義算力時代云計算技術(shù)新標(biāo)準(zhǔn),構(gòu)建算力時代新技術(shù)曲線。將以磐石DPU為代表的DPU芯片融入現(xiàn)有智算中心技術(shù)體系,將算力集群由點間因數(shù)據(jù)1/O瓶頸而產(chǎn)生的算力孤島,突破現(xiàn)有技術(shù)架構(gòu)下的集群規(guī)模極限,使超萬卡集群成為可能。4.1.4極致算力能效比在制程工藝相對固定的條件下,芯片的高性能無疑會增加芯片的功耗,從而影響整機的散熱。面對高性能計算芯片功率密度急劇上升的現(xiàn)狀,需要通過制冷系統(tǒng)和GPU芯片兩方面進行優(yōu)化。在制冷系統(tǒng)方面,當(dāng)前單機8卡GPU服務(wù)器功耗已經(jīng)數(shù)倍于通用服務(wù)器,由于GPU的散熱量大幅增加,為了增加計算密度,節(jié)省空間,超萬卡集群建議采用當(dāng)前較成熟的高密度冷板式液冷機柜,一個液冷機柜可容納多臺液冷GPU訓(xùn)練服務(wù)器,相比傳統(tǒng)風(fēng)冷機柜大幅提升空間利用率。在GPU芯片方面,為了提升GPU單芯片的能效比,應(yīng)采取多領(lǐng)域的優(yōu)化策略,實現(xiàn)高性能與低能耗之間的平衡。在芯片工藝領(lǐng)域,建議采用更加先進的半導(dǎo)體制造工藝,如7nm或更小的特征尺寸,以此降低晶體管的功耗,同時提升單芯片集成度。此外,應(yīng)加強超方卡集群內(nèi)GPU架構(gòu)的創(chuàng)新設(shè)計,包括優(yōu)化片上總線設(shè)計、改進流水線結(jié)構(gòu)、優(yōu)化電壓和頻率策略以及精確的時鐘門控技術(shù),從而在不同工作狀態(tài)下實現(xiàn)最優(yōu)的能耗效率。在軟件層面,超萬卡集群應(yīng)采用更加精細的監(jiān)控和分析,實時跟蹤GPU的運行數(shù)據(jù),并不斷優(yōu)化算法和工作負載分配,以實現(xiàn)更加均衡和高效的算力利用。通過上述設(shè)計和優(yōu)化,不僅能提高用戶的計算體驗,降低成本,也為智算中心可持續(xù)發(fā)展和綠色環(huán)保提出了可行方案。4.2高性能融合存儲技術(shù)為了實現(xiàn)存儲空間高效利用、數(shù)據(jù)高效流動,并支持智算集群大規(guī)模擴展,超萬卡集群應(yīng)來用多初議融合和自動分級存儲技術(shù),提開智算數(shù)據(jù)處理效率,助力超卡集群支撐千億乃至萬億大模型訓(xùn)練。4.2.1多協(xié)議融合超方卡集群融合存儲底座承載AI全流程業(yè)務(wù)數(shù)據(jù)處理,兼容AI全流程工具鏈所需的NFS(NetworkFileSystem)、S3(SampleStorageService)和并行客戶端POSIX(PortableOperatingSystemInterface)等協(xié)議,支持各協(xié)議語義無損,達到與原生協(xié)議一樣的生態(tài)兼容性要求,在不同階段實現(xiàn)數(shù)據(jù)零拷貝和格式零轉(zhuǎn)換,確保前一階段的輸出可以作為后一階段的輸入,實現(xiàn)AI各階段協(xié)同業(yè)務(wù)的無縫對接,達到“零等待”效果,顯著提升大模型訓(xùn)練效率。4.2.2集群高吞吐性能為滿定超卡集群大模型對于存儲高吞吐性能需求,基于全局文件系統(tǒng)技術(shù),可支持超3000節(jié)點擴展規(guī)模,為大模型訓(xùn)練提供百PB級全閃存儲大集群能力,從閃存密度、數(shù)據(jù)面網(wǎng)絡(luò)、并行客戶端和對等通信機制等多個維度全面提升存儲系統(tǒng)性能,實現(xiàn)存儲集群10TB/S級聚合吞吐帶寬、億級1OPS,智能算力利用率提升20%以上,大模型checkpoint恢復(fù)時長從分鐘級提升壘秒級,同時對高價值智算存儲數(shù)據(jù)提供強一致性訪問和99.9999%可靠性能力。4.2.3高效分級營理超萬卡集群數(shù)據(jù)量巨大,其中大部分是溫冷數(shù)據(jù),統(tǒng)籌考慮性能和成本因素,規(guī)劃普通性能、高性能兩類存儲集群。普通性能存儲集群使用混閃存儲介質(zhì),具備低成本和大容量優(yōu)勢,提供溫冷數(shù)據(jù)存儲;高性能存儲集群使用全閃存儲介質(zhì),為大模型訓(xùn)練提供數(shù)據(jù)高吞吐能力,主要用于存放熱數(shù)據(jù)。為智算應(yīng)用高效管理和訪問數(shù)據(jù),兩類存儲集群應(yīng)該對外呈現(xiàn)統(tǒng)一命名空間,提供基于策略的數(shù)據(jù)自動分級流動能力,實現(xiàn)冷熱數(shù)據(jù)按照策略自動流動,避免人工頻繁介入,提升存儲系統(tǒng)整體運行效率。4.3大規(guī)模機間高可靠網(wǎng)絡(luò)技術(shù)超萬卡集群網(wǎng)絡(luò)包括參數(shù)面網(wǎng)絡(luò)、數(shù)據(jù)面網(wǎng)絡(luò)、業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)。業(yè)務(wù)面網(wǎng)絡(luò)、管理面網(wǎng)絡(luò)一般采用傳統(tǒng)的TCP方式部署,參數(shù)面網(wǎng)絡(luò)用于計算節(jié)點之間參數(shù)交換,要求具備高帶寬無損能力。數(shù)據(jù)面網(wǎng)絡(luò)用于計算節(jié)點訪問存儲節(jié)點,也有高帶寬無損網(wǎng)絡(luò)的訴求。超萬卡集群對參數(shù)面網(wǎng)絡(luò)要求最高,主要體現(xiàn)在四個方面:大規(guī)模,零丟包,高吞吐,高可靠。目前業(yè)界成熟的參數(shù)面主要包括IB(InfiniBand)和ROCE兩種技術(shù)。面向未來AI大模型演進對網(wǎng)絡(luò)提出的大規(guī)模組網(wǎng)和高性能節(jié)點通信需求,業(yè)界也在探索基于以太網(wǎng)新一代智算中心網(wǎng)絡(luò)技術(shù),包括由中國移動主導(dǎo)的全調(diào)度以太網(wǎng)(GlobaScheduledEthernet,GSE)方案[6]和LinuxFoundation成立的超以太網(wǎng)聯(lián)盟(UltraEthernetConsortium,UEC),兩者通過革新以太網(wǎng)現(xiàn)有通信棧,突破傳統(tǒng)以太網(wǎng)性能瓶頸,為后續(xù)人工智能和高性能計算提供高性能網(wǎng)絡(luò)。中國移動也將加速推動GSE技術(shù)方案和產(chǎn)業(yè)成熟,提升AI網(wǎng)絡(luò)性能,充分釋放GPU算力,助力AI產(chǎn)業(yè)發(fā)展。4.3.1大規(guī)模組網(wǎng)根據(jù)不同的A服務(wù)器規(guī)模,參數(shù)面網(wǎng)絡(luò)推薦采用Spine-Leaf兩層組網(wǎng)或胖樹(Fat-Tree)組網(wǎng)。每8臺Leaf交換機和下掛的AI服務(wù)器做為一個group,以group為單位進行擴展。在group內(nèi)部,推薦采用多軌方案將AI服務(wù)器連接至Leaf交換機,即所有AI服務(wù)器的1號網(wǎng)口都上連至Leaf1,所有2號網(wǎng)口上連至Leaf2,依此類推,所有8號網(wǎng)口上連至Leaf8。Spine交換機和Leaf交換機之間采用Fullmesh全連接。Leaf交換機上下行收斂比為1:1。胖樹(Fat-Tree)組網(wǎng)由Leaf交換機、Spine交換機和Core交換機組成。每8臺Leaf交換機和下掛的A服務(wù)器做為一個group,8臺Leaf交換機又和上面N臺Spine交換機組成一個pod,胖樹組網(wǎng)以pod為單位進行擴展。在胖樹組網(wǎng)中,Spine交換機和Leaf交換機之間采用Fullmesh全連接,所有Spinel都Full-Mesh連接至第一組Core,所有Spine2都Full-Mesh連接至第二組Core,依次類推。Spine交換機和Leaf交換機上下行收斂比都為1:1。4.3.2零丟包無損網(wǎng)絡(luò)分布式高性能應(yīng)用的特點是“多打一”的Incast流量模型。對于以太交換機,Incast流量易造成交換機內(nèi)部隊列緩存的瞬時突發(fā)擁塞甚至丟包,帶來應(yīng)用時延的增加和吞吐的下降,從而損害分布式應(yīng)用的性能。AI人工智能計算場景通常采用ROCEV2協(xié)議與DCQCN(DataCenterQuantizedCongestionNotification)擁塞控制機制相互配合實現(xiàn)零丟包無損網(wǎng)絡(luò)。DCQCN要求交換機對遇到擁塞的報文進行ECN(ExplicitCongestionNotification)標(biāo)記,傳統(tǒng)方式的ECN門限值是通過手工配置的,這種靜態(tài)的ECN水線無法適配所有的業(yè)務(wù)流量模型;水線配置低了,頻繁進行ECN通告,網(wǎng)絡(luò)吞上不來;水線配置高了,可能導(dǎo)致頻繁觸發(fā)PFC(Priority-basedFlowControl),影響整網(wǎng)的其他業(yè)務(wù)流量。因此建議在參數(shù)面網(wǎng)絡(luò)和數(shù)據(jù)面網(wǎng)絡(luò)里部署動態(tài)CN技術(shù),通過AI算法,根據(jù)網(wǎng)絡(luò)業(yè)務(wù)流量模型,計算出對應(yīng)的ECN水線配置,達到在保證吞吐的同時,盡量維持較低的隊列時延,讓網(wǎng)絡(luò)的吞吐和時延達到最佳平衡。無論是靜態(tài)ECN還是動態(tài)ECN,本質(zhì)上都是被動擁塞控制機制,通過反壓源端降低報文發(fā)送速度來保證網(wǎng)絡(luò)無損,實際上并沒有達到提升吞吐率效果,反而降低了GPU利用率。因此,中國移動提出GSE技術(shù),通過全局動態(tài)的主動授權(quán)機制,從根本上最大限度消除網(wǎng)絡(luò)擁塞,減少網(wǎng)絡(luò)設(shè)備隊列資源的開銷,降低模型訓(xùn)練任務(wù)的長尾時延,突破ROCEv2性能瓶頸。4.3.3高吞吐網(wǎng)絡(luò)AI人工智能計算場景的流量特征是流數(shù)少、單流帶寬大。傳統(tǒng)的ECMP(EqualCostMultiPath)是基于5元組的逐流HASH,在流數(shù)少的時候極易出現(xiàn)HASH不均的情況,建議使用端口級負載均衡技術(shù)或算網(wǎng)協(xié)同負載均衡技術(shù)代替?zhèn)鹘y(tǒng)的ECMP。端口級負載均衡部署在Leaf交換機上,以源端口或目的端口作為數(shù)據(jù)流均衡的影響因子,在一個端口組內(nèi)將歸屬于不同端口的數(shù)據(jù)流均衡到本地出端口集合上,消除傳統(tǒng)基于五元組哈希的不確定性。除此之外,還可以在參數(shù)網(wǎng)絡(luò)里部署算網(wǎng)協(xié)同負載均衡技術(shù),AI調(diào)度平臺把任務(wù)信息通知給網(wǎng)絡(luò)控制器,網(wǎng)絡(luò)控制器結(jié)合已經(jīng)建立的整網(wǎng)拓撲信息,進行整網(wǎng)最優(yōu)轉(zhuǎn)發(fā)路徑計算,計算完成后自動生成路徑并動態(tài)下發(fā)到網(wǎng)絡(luò)設(shè)備,實現(xiàn)多任務(wù)全網(wǎng)負載均衡。使網(wǎng)絡(luò)吞吐可以達到95%以上,接近滿吞吐。4.3.4高可靠網(wǎng)絡(luò)超萬卡集群中網(wǎng)絡(luò)作為業(yè)務(wù)流量的調(diào)度中樞,其穩(wěn)定性決定著整個集群的運行效率。在典型的CLOS組網(wǎng)中,交換機之間都有多條路徑,當(dāng)一條鏈路出現(xiàn)故障的時候通過感知端口狀態(tài)、路由收斂、轉(zhuǎn)發(fā)路徑切換等操作,完成流量從故障鏈路到備用鏈路的收斂。但是這個時間一般在秒級。然而在A1場景里面,每次通信時間在毫秒級別,秒級時間內(nèi)正常情況下已完成了多輪通信。如果依靠傳統(tǒng)的路由收斂方式,將極大的影響AI計算效率。DPFR(DataPlaneFastRecovery)技術(shù)在此場景下,可以做到毫秒級收斂,提供基于數(shù)據(jù)面的本地快收斂或遠程快收斂。特性包含故障快速感知,故障本地快速收斂,故障通告生成、接收和中繼處理,故障遠程快速收斂和表項老化處理。針對關(guān)鍵應(yīng)用,盡量做到應(yīng)用無感知的故障快速收斂效果,即在鏈路故障發(fā)生時業(yè)務(wù)性能無明顯下降。4.4高容錯高效能平臺技術(shù)智算平臺是智算中心承載模型訓(xùn)練、推理和部署的綜合性平臺系統(tǒng),在智算中心技術(shù)體系架構(gòu)中承擔(dān)著重要的角色,對算力基礎(chǔ)設(shè)施進行統(tǒng)一納管、調(diào)度、分配和全生命周期管理,主要包含對計算、存儲、網(wǎng)絡(luò)等laaS資源的云化管控,在此基礎(chǔ)上通過云原生的容器底座能力,實現(xiàn)智算資源納管分配、AI任務(wù)作業(yè)調(diào)度、拓撲感知調(diào)度、訓(xùn)練全鏈路監(jiān)控等滿足智算業(yè)務(wù)的核心需求。隨著模型參數(shù)量和數(shù)據(jù)量的激增,訓(xùn)練所需的單集群規(guī)模來到萬級,但是智算平臺的性能通常不能隨著算力線性增長,而是會出現(xiàn)耗損,因此大模型訓(xùn)練還需要高效的算力調(diào)度來發(fā)揮算力平臺的效能。而這不僅需要依賴算法、框架的優(yōu)化,還需要借助高效的算力調(diào)度平臺,根據(jù)算力集群的硬件特點和計算負載特性實現(xiàn)最優(yōu)化的算力調(diào)度,來保障集群可靠性和計算效率。針對以上問題,業(yè)界多以斷點續(xù)訓(xùn)、并行計算優(yōu)化、智能運維等作為切入點,構(gòu)建高容錯高效能智算平臺。4.4.1斷點續(xù)訓(xùn)高容錯能力大模型訓(xùn)練面臨的困難在于確保訓(xùn)練任務(wù)能夠持續(xù)進行而不中斷。在訓(xùn)練過程中可能會遇到硬件故障、軟件故障、網(wǎng)絡(luò)故障以及其他故障。這種頻繁中斷導(dǎo)致的訓(xùn)練進度的損失對于耗時又耗資源的大模型訓(xùn)練來說是難以承受的,需要具備自動故障檢測和訓(xùn)練重啟。當(dāng)前業(yè)界大模型訓(xùn)練主要容錯方案依賴于訓(xùn)練過程中周期性保存checkpoint,故障發(fā)生后從上一個周期性checkpoint重新啟動訓(xùn)練?;谄脚_的運維監(jiān)控能力,可以實現(xiàn)對超萬卡集群的軟硬件故障檢測和預(yù)警,但是當(dāng)故障發(fā)生且導(dǎo)致模型訓(xùn)練中斷或停止時,通常需要人工介入排查故障信息,隔離故障并重新觸發(fā)容器pod資源調(diào)度,重新完成并行訓(xùn)練中集合通信的初始化,重新加載基于中斷前最近一次保存的checkpoint信息,最后經(jīng)歷算子庫的重新編譯,完成訓(xùn)練任務(wù)的繼續(xù)。在斷點續(xù)訓(xùn)過程中,checkpoint是模型中斷訓(xùn)練后恢復(fù)的關(guān)鍵點,因此checkpoint密集程度、保存和恢復(fù)的性能尤為重要,checkpoint本身的耗時與模型的大小成正比,當(dāng)模型參數(shù)達到百億甚至千億時,checkpoint的時間開銷通常在幾分鐘到十幾分鐘之間。此時,訓(xùn)練任務(wù)需要暫停,使得用戶難以頻繁進行checkpoint操作,因此為保證訓(xùn)練效率,會適當(dāng)拉長checkpoint保存周期。然而,一旦發(fā)生中斷,之前損失的迭代次數(shù)在恢復(fù)時需要重新計算,需要花費更長的時間。為解決該問題,需要盡量降低checkpoint流程的開銷,既能大幅降低訓(xùn)練暫停時間,也能支持高頻的checkpoint來減少容錯時浪費的迭代步數(shù)。業(yè)界通常采用checkpoint多級存儲的方式,構(gòu)建基于更高10性能的內(nèi)存介質(zhì)構(gòu)建存儲系統(tǒng),相比于磁盤或者網(wǎng)絡(luò)文件存儲系統(tǒng),checkpoint在內(nèi)存空間的保存可以大幅縮短訓(xùn)練暫停等待時間。同時,結(jié)合業(yè)務(wù)需求定期地將checkpoint異步寫入到持久化的存儲系統(tǒng)中,異步流程不干擾正常的訓(xùn)練。當(dāng)發(fā)生故障導(dǎo)致訓(xùn)練任務(wù)重啟時,由于內(nèi)存系統(tǒng)中的checkpoint數(shù)據(jù)并未丟失,新啟動的訓(xùn)練進程可以直接讀取內(nèi)存系統(tǒng)中的checkpoint數(shù)據(jù)來加載模型和優(yōu)化器狀態(tài),從而省去了讀取網(wǎng)絡(luò)存儲系統(tǒng)的10開銷。斷點續(xù)訓(xùn)基于多級checkpoint存儲、軟硬件協(xié)同優(yōu)化以及全棧系統(tǒng)級容錯,實現(xiàn)訓(xùn)練任務(wù)分鐘級恢復(fù),在技術(shù)價值方面,實現(xiàn)故障檢測、故障隔離、資源重調(diào)度、訓(xùn)練任務(wù)恢復(fù)無人工全流程自動化;在商業(yè)價值方面,作為智算平臺關(guān)鍵特性提供給模型開發(fā)者使用,保障大模型訓(xùn)練任務(wù)長期穩(wěn)定運行,提升用戶滿意度。4.4.2分布式并行計算優(yōu)化超萬卡集群中分布式并行訓(xùn)練框架[81、[9]是標(biāo)準(zhǔn)配置,即在大規(guī)模算力資源池上搭建用于并行處理深度學(xué)習(xí)模型分布式訓(xùn)練任務(wù)的工具集合,其將訓(xùn)練任務(wù)劃分為多個子任務(wù),通過在多臺計算機上并行執(zhí)行,實現(xiàn)高效、可靠和快速的分布式大模型訓(xùn)練,提高模型的準(zhǔn)確性和效率。超萬卡集群因節(jié)點數(shù)眾多、資源類型不統(tǒng)一、數(shù)據(jù)量大、網(wǎng)絡(luò)環(huán)境復(fù)雜,給大型訓(xùn)練帶來了許多挑戰(zhàn)。挑戰(zhàn)一:實現(xiàn)大規(guī)模的高效率訓(xùn)練。ModelFLOPsutilization(MFU)是實際吞吐量與標(biāo)稱最大吞吐量之比,是評估模型訓(xùn)練效率的通用指標(biāo),可以直接反映端到端的訓(xùn)練效率。為了訓(xùn)練大模型,需要將模型分布為多個GPU上,并且GPU之間需進行大量通信。除了通信之外,如操作符優(yōu)化、數(shù)據(jù)預(yù)處理和GPU內(nèi)存消耗等因素對MFU也有著顯著影響。挑戰(zhàn)二:實現(xiàn)訓(xùn)練的高穩(wěn)定性,即在整個過程中保持高效率訓(xùn)練。在大模型訓(xùn)練中,穩(wěn)定性十分重要,失敗和延遲雖是大模型訓(xùn)練中的常態(tài),但其故障成本極高,如何縮短故障恢復(fù)時間至關(guān)重要。4.4.3超萬卡集群智能管控隨著智算集群規(guī)模不斷擴大,集群運維管控與集群應(yīng)用之間的矛盾日益凸顯。隨著單集群的AI加速卡數(shù)量從從千級增長到萬級,相應(yīng)的故障范圍擴大超過10倍。典型故障范圍從單服務(wù)器單卡迅速擴散到算網(wǎng)存多域全棧。為徹底改變這一運維困境亟需引入新的運維理念和技術(shù),以集群全鏈路可視化監(jiān)控、故障快速定位和運維側(cè)快速修復(fù)為原則來建設(shè)新的集群計算智能運維系統(tǒng)。超萬卡集群智能運維系統(tǒng)需要具備算、網(wǎng)、存協(xié)同管理的端到端系統(tǒng)運維管理能力,包括計算設(shè)備、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、光模塊設(shè)備管理、控制以及分析等全生命周期運維管理能力,提升訓(xùn)練效率、降低訓(xùn)練成本,實現(xiàn)大模型訓(xùn)的快、訓(xùn)的穩(wěn)、訓(xùn)的好。新的集群智能運維管理系統(tǒng)從底層建設(shè)開始應(yīng)具備統(tǒng)一的容器化平臺與公共技術(shù)底座。系統(tǒng)南向的實現(xiàn)應(yīng)采用統(tǒng)一的采集框架,統(tǒng)一對被管理的計算、存儲、網(wǎng)絡(luò)、光模塊單元進行資源、性能、告警、日志、拓撲等信息的采集,并存放到集中數(shù)據(jù)底座中。運維系統(tǒng)應(yīng)構(gòu)建公共的服務(wù)及數(shù)據(jù)底座,為整個系統(tǒng)提供基礎(chǔ)服務(wù)及數(shù)據(jù)存儲能力,并基于容器化平臺與公共技術(shù)底座構(gòu)建基礎(chǔ)的公共服務(wù),提供資源管理、服務(wù)編排、監(jiān)控、作業(yè)運維等功能,實現(xiàn)對萬卡智算集群的智能運維服務(wù)。集群計算智能運維管理系統(tǒng)在實際業(yè)務(wù)布局中應(yīng)具備與AI作業(yè)任務(wù)密切相關(guān)的能力。一般情況下應(yīng)具備AI作業(yè)路徑可視功能、環(huán)境健康檢查功能、AI訓(xùn)練作業(yè)故障診斷、集群環(huán)境管理、集群資源管理、服務(wù)器管理以及監(jiān)控分析等能力。4.5新型智算中心機房設(shè)計面向高密度高能耗智能算力發(fā)展,對于部署超萬卡集群的新型智算中心來說,需要在確保智能計算設(shè)備安全、穩(wěn)定、可靠地運行的前提下,具備高效制冷、彈性擴展、敏捷部署、綠色低碳等特征,并實現(xiàn)智能化運維管理。新型智算中心機房的關(guān)鍵要素如下:4.5.1高效制冷智算中心催生了海量算力需求,芯片TDP不斷攀升,風(fēng)冷難以散熱,同時也帶來總功耗不斷增加,散熱和能耗成為智算中心迫在眉睫的問題,液冷具有散熱效率高以及支持更高功率處理器的優(yōu)勢,近年得到了快速發(fā)展,可推動擴大解耦型冷板液冷或單相浸沒液冷技術(shù)應(yīng)用范圍及推動交換機等網(wǎng)絡(luò)設(shè)備應(yīng)用液冷,解決高密服務(wù)器散熱的同時降低智算中心整體能耗,另外解耦冷板液冷可以實現(xiàn)基礎(chǔ)設(shè)施側(cè)與IT設(shè)備側(cè)解耦,實現(xiàn)智算業(yè)務(wù)快速彈性部署。4.5.2彈性供電智算中心具有高密度、負載率波動大的特點,需彈性供電以適配不同計算任務(wù)需求。供電系統(tǒng)將采用大容量、模塊化高效不間斷電源,形成電力資源池,以每列智算機架為顆粒度,預(yù)留高密機架和普通密度機架互彈條件,提高系統(tǒng)效率和靈活性;采用末端小母線供電(或列頭柜預(yù)留出線回路)的機柜供電方案,提升末端供電的靈活性。對于未來超高功率的智算機柜,采用放射式供電、高集成度電力模塊等方案,節(jié)省占地,提升平面布局的靈活性。4.5.3敏捷部署智算業(yè)務(wù)需求短時爆發(fā),敏捷部署的智算中心成為剛需。新型智算中心規(guī)劃建設(shè)時,可采用一體化電源系統(tǒng)、預(yù)制集成泵站模式、集裝箱式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煤礦地測班組長技能理論考試題庫150題(含答案)
- 2025年國家基本公共衛(wèi)生參考試題庫資料大全-1居民健康檔案管理
- 2025年采煤班組長職業(yè)技能理論考試題庫資料300題(含答案)
- 2025年銀行校招筆試模擬考試-歷年真題(含答案解析)
- 職業(yè)學(xué)校藥學(xué)專業(yè)《常見病用藥指導(dǎo)》課程標(biāo)準(zhǔn)
- 《高等數(shù)學(xué)多媒體》課件
- 《熱設(shè)計原理與實踐》課件
- 《生物多樣性演變》課件
- 《運算之和的加法》課件
- AI實戰(zhàn):勞動節(jié)版
- 2025人教版一年級下冊數(shù)學(xué)教學(xué)進度表
- DeepSeek教案寫作指令
- 休學(xué)復(fù)學(xué)申請書
- 瓷磚鋪貼勞務(wù)承包協(xié)議書
- 2025年四川司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 新建污水處理廠工程EPC總承包投標(biāo)方案(技術(shù)標(biāo))
- 山東省德州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 《宏觀經(jīng)濟管理研究》課件
- 本人報廢車輛委托書
- 雙減政策與五項管理解讀
- 2025年道德與法治小學(xué)六年級下冊教學(xué)計劃(含進度表)
評論
0/150
提交評論