版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
3 4 4 4 6 7 9 9 30 314參數(shù)規(guī)模增加,模型訓(xùn)練的效果越來越好,且兩者之間符合Scalinglaw規(guī)律。當模型的參數(shù)規(guī)模超過數(shù)百億后,AI大模型的語言理解能力、邏輯推理能力以型參數(shù)的規(guī)模和性能后,AI大模型訓(xùn)練對于網(wǎng)絡(luò)的“爆發(fā)式”增長。據(jù)統(tǒng)計,2012~2022年模型算力需求每年增長4倍,而2023千/萬卡GPU組成的集群高速互聯(lián)。此外,機內(nèi)GPU通信和機外集合通信將產(chǎn)達到數(shù)百GB量級。若要在極短時間內(nèi)完成參數(shù)交換,將對GPU與GPU間、GPU與網(wǎng)卡間、網(wǎng)卡與網(wǎng)卡間的超高帶寬互聯(lián)提出較高要求。網(wǎng)絡(luò)擁塞和丟包也會嚴重影響GPU計算效率,據(jù)實驗統(tǒng)計,0.1%的網(wǎng)絡(luò)丟包率就會帶來50%的算力損失,因此提升通信性能可有效釋放智能算力。AI大模型訓(xùn)練/推理需要智算網(wǎng)絡(luò)具備超大規(guī)模、超高帶寬、超低),對AI基礎(chǔ)設(shè)施帶來極大挑戰(zhàn)。在構(gòu)建萬卡甚至十5),及大型企業(yè)自建,集中在京津冀、長三角和粵港澳。算圖1-1多智算中心合一場景的關(guān)鍵能力。算-算拉遠能夠充分利用碎片資源來執(zhí)行圖1-2碎片資源整合場景6計算集群和存儲集群的網(wǎng)絡(luò)成為實現(xiàn)云存儲服務(wù)高性能和高可靠性的關(guān)鍵。存-(2)網(wǎng)絡(luò)擁塞丟包,使性能急劇下降:當前AI訓(xùn)練采用RDMA協(xié)議,而要使得RDMA吞吐不受影響,丟包率必須保證在十萬分之一以下,最好為零丟包。在長距拉遠場景下,當網(wǎng)絡(luò)出現(xiàn)擁塞時,若沒有在RTT(往返時間)內(nèi)及圖1-3丟包影響RDMA吞吐7谷歌利用自研低成本、高性能TPUv4超級計算機(SuperPod)滿足大模型8也是用2個TPUv4SuperPod訓(xùn)練的。OpenAI與微軟也在計劃建設(shè)十萬甚至百又提出去中心化異構(gòu)訓(xùn)練,利用分布式、異構(gòu)和低帶寬互聯(lián)的AI訓(xùn)練資源來訓(xùn)踐表明LLM訓(xùn)練的吞吐性能相比傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)而言提升了14.9%。百度智之間通過全光子網(wǎng)絡(luò)(APN)搭建LLM遠程訓(xùn)練企業(yè)本地,而使用數(shù)百公里外數(shù)據(jù)中心的GPU進行訓(xùn)練,訓(xùn)練效果與本地的訓(xùn)圖1-4阿里HPN7.0架構(gòu)當前單點智算中心算力規(guī)模受限、算力資源碎片化嚴重,難以承載大規(guī)模9支撐十萬卡甚至百萬卡級別的AI訓(xùn)練任務(wù),同時提高資源利用率,是未實現(xiàn)最優(yōu)成本的bit傳輸和算力的綠色供給。圖2-1分布式智算中心無損網(wǎng)絡(luò)總體架構(gòu)通用計算區(qū):包括CPU等通用服務(wù)器,支持各種類型的應(yīng)用程序和服務(wù)。色,通過相互協(xié)作確保整個分布式智算中心的高效圖2-2AI集群區(qū)網(wǎng)絡(luò)互聯(lián)架構(gòu)接入層:由ServerLeaf交換機組成,支持AI算力服務(wù)器準流控等技術(shù),實現(xiàn)網(wǎng)絡(luò)負載均衡和長距無損,為A廣域互聯(lián)層:不同智算中心節(jié)點之間采用OTN全光網(wǎng)一跳直達,全程無擁通過這些設(shè)計,AI集群網(wǎng)絡(luò)架構(gòu)能夠在長距離、大規(guī)模的分布式計算環(huán)境伸,方案具備長距無損、超大帶寬、超高可靠、彈性敏作為輸入輸出協(xié)議。由于RDMA對網(wǎng)絡(luò)擁塞和輸過程中不會出現(xiàn)擁塞或丟包現(xiàn)象,從而避(2)超大帶寬:超大帶寬能夠確保大量數(shù)據(jù)在分輸,加速AI模型的訓(xùn)練和推理過程。隨著數(shù)據(jù)量的增加,分布式智算中心之間需拆建能力,能夠根據(jù)計算需求的變化快速調(diào)整,快速準確地定位和解決問題,提高故障定位的準確分布式智算中心無損網(wǎng)絡(luò)在IP網(wǎng)絡(luò)層和光傳輸層都需要引入新的技圖3-1分布式智算中心無損網(wǎng)絡(luò)關(guān)鍵技術(shù)點智算業(yè)務(wù)的通信模式為集合通信,其中最主要的是AllGather和AllReduce集合通信。集合通信的特點是所有主機都會進行相同的操作,如圖3-2所示。AllGather:多臺主機把數(shù)據(jù)的不同部分發(fā)給所有圖3-2集合通信操作Halving-Doubling(HD)算法。其中Ring算法通信模式簡單,每臺主機只需跟自己的鄰居通信;HD算法通信模式較復(fù)雜,但通信次數(shù)比Ring算法少,靜態(tài)時延帶來的開銷小,因此對于小字節(jié)的通信效果更佳。然而~~~~NS(3)每個代表主機接收到對方的數(shù)據(jù)后,進行本地加和,再將加和后的結(jié)圖3-3跨長距集合通信算法架構(gòu)圖3-4新算法性能仿真其中智算業(yè)務(wù)限定了網(wǎng)絡(luò)的流量模型是集合通信。同構(gòu)主要指網(wǎng)絡(luò)設(shè)備的帶寬、每條等價路徑上都有流經(jīng)過,傳統(tǒng)基于ECMP哈希的負載均衡技術(shù)無法做到所圖3-5網(wǎng)絡(luò)級負載均衡技術(shù)如圖3-5所示,網(wǎng)絡(luò)級負載均衡技術(shù)可以通過統(tǒng)一規(guī)劃整網(wǎng)流量,讓所有路方案,另一種是在跨多個智算中心時,由交換機+路由器端到端交換機精準流控技術(shù)主要解決智算業(yè)務(wù)場景下故障丟包引起的業(yè)務(wù)性能下備緩存不足以接納鏈路在途數(shù)據(jù)包,從而發(fā)生丟包,如圖3-6所示。圖3-6近端擁塞和遠端擁塞帶來的影響不同備,也就是源Leaf交換機。隨后,源流控協(xié)議報文,實現(xiàn)對流量的控速,如圖3-7所示。圖3-7交換機精準流控技術(shù)下一個周期還會出現(xiàn)。基于這一特征,源Leaf交換機需要維護一張信息表,用第一周期獲取到整網(wǎng)擁塞信息后,后面所有周可以有效遏制擁塞和故障導(dǎo)致的反壓擴散,顯暴和死鎖問題,實現(xiàn)了從端口級流控到數(shù)據(jù)流級面對數(shù)據(jù)中心內(nèi)高度動態(tài)的業(yè)務(wù)負載變化,路由器精準流控技術(shù)展現(xiàn)出極高的靈活性與智能性。其能夠根據(jù)實時網(wǎng)絡(luò)狀況動態(tài)調(diào)整流控策略,實現(xiàn)流量峰值速率的流級別的獨立控制和精準反壓,有效應(yīng)對網(wǎng)絡(luò)中的突發(fā)流量,保障整體網(wǎng)絡(luò)的平穩(wěn)運行,實現(xiàn)故障的有效隔離不擴散。此外,路由器精準流控技術(shù)引入的彈性級聯(lián)降速機制,進一步增強了網(wǎng)絡(luò)對突發(fā)情況的適應(yīng)能力,提升了網(wǎng)絡(luò)的韌性。圖3-8路由器精準流控技術(shù)網(wǎng)絡(luò)設(shè)備間的鏈路故障或模塊故障會導(dǎo)致訓(xùn)練中斷。業(yè)界400G/200G光模塊年失效率達4~6‰。據(jù)統(tǒng)計,萬卡集群平均每年發(fā)生60如圖3-9所示,激光器的失效率占比為90%以上。200GE/400GE短距SR通道抗損技術(shù)可以在光模塊出現(xiàn)單通道故障時,通過降低模塊實際使用lane的圖3-9光模塊失效模式以及跨智算中心長距通信都對ROCE業(yè)務(wù)報文的傳輸質(zhì)量提出了較高要求,希圖3-10ROCE業(yè)務(wù)場景在分布式智算中心長距組網(wǎng)場景下,計算服務(wù)器的接入Leaf作為統(tǒng)計的Ingress節(jié)點和Egress節(jié)點,Spine和DCIleaf做Ingress:統(tǒng)計流的入口測量點。Ingress節(jié)點根據(jù)報文特征識別業(yè)務(wù)流量,Transit:統(tǒng)計流的中間測量點。Tra入網(wǎng)絡(luò)的時間與離開網(wǎng)絡(luò)的時間之差,即為網(wǎng)絡(luò)在本成熟,現(xiàn)已部署在智算DCI百公里級互聯(lián)場景中,在滿足智算互聯(lián)百T級大進一步降低單bit成本。圖3-11單播速率不斷提升信號占用的譜寬不斷提升。為獲得更大的單纖系統(tǒng)容量,需要在傳統(tǒng)C波段的量(最高可達96Tbps超大帶寬),進一步滿足智算中心之間的海圖3-12C+L波段提供更大容量根據(jù)距離、時延等不同約束,由業(yè)務(wù)側(cè)驅(qū)動建立不同方向的波長級連接,因此圖3-13帶寬分時復(fù)用的業(yè)務(wù)場景電驅(qū)光技術(shù)有兩種典型場景1)波長級的電驅(qū)光,動態(tài)拆建光層波長;如指定源宿站點/網(wǎng)元、路由策略、保護等級),并結(jié)合當前網(wǎng)絡(luò)拓撲和資源使(2)光電交叉同步創(chuàng)建:自動生成業(yè)務(wù)配置參數(shù),包含但不限于:Client傳統(tǒng)的WSON重路由時間為秒級到分鐘級,現(xiàn)網(wǎng)測試中容易發(fā)生概率性訓(xùn)練中斷事件,影響智算業(yè)務(wù)。因此,需要進一步提升WSO現(xiàn)確定性的光層恢復(fù)能力。當前現(xiàn)網(wǎng)重要業(yè)務(wù)采用電層SNCP+光層重路由,通電層SNCP要求冗余資源多,需要考慮光層的50ms保護能力。針對智算百公里級互聯(lián)場景,利用WSON50ms技有的協(xié)議報文轉(zhuǎn)發(fā)芯片,可達成ms級的傳輸性能,降低了對CPU和業(yè)務(wù)跳數(shù)識別困難、故障的定界/定位耗時費力、保護倒換等圖3-14智能故障處理流程圖通過QoT模型對光傳輸系統(tǒng)的物理層損傷進行精確建模,如圖3-16所示,采用智能預(yù)測算法可以對OCh備路徑和加掉波的余量變化進行分析和預(yù)測,更直接準確地反映系統(tǒng)傳輸能力,并進行OCh劣圖3-15光網(wǎng)絡(luò)物理層智能QoT模型示意圖位效率;余量預(yù)測通過精準評估加掉波前的OSNR余量,提前預(yù)測加調(diào)波對現(xiàn)智算需求旺盛,是全國的智算高地。為滿足未來北京市內(nèi)及京津冀用算需求,以及解決單節(jié)點智算中心資源受限、不同智算中心資源使用不均衡等問題,中國電信率先在北京開展了分布式智算中心無損網(wǎng)絡(luò)試驗,驗證跨數(shù)據(jù)中心合池網(wǎng)開展了真實場景下百公里拉遠對大模型訓(xùn)練的影響及穩(wěn)定性測試,并在全國率先完成基于高帶寬、低時延的全光800G超高帶寬傳輸。項目組從多拓撲、多模型、多故障等維度積極開展主流方案摸底測試,并對仿真驗證結(jié)果進行分基于北京全光運力網(wǎng)規(guī)劃,項目組先后開展了現(xiàn)網(wǎng)機房的64卡以及1024卡組網(wǎng)驗證。一階段在京津冀智算機房進行80km/120km繞行拉遠驗證,模擬了兩個數(shù)據(jù)中心組網(wǎng),組網(wǎng)拓撲如圖4-1所示。二階段在武清、瀛海、永豐三機房開展百公里分布式大模型訓(xùn)練,驗證當前分布式智算中心無損網(wǎng)絡(luò)解決方案在真實業(yè)務(wù)場景下的效果,并探索分布式智算集群對大模型訓(xùn)練性能影響的關(guān)鍵因素,組網(wǎng)拓撲如圖4-2所示。在前期百卡、百公里拉遠驗證基礎(chǔ)上,三拓撲如圖4-3所示,本階段探索長距鏈路帶寬收斂情況下模標是推動無損智算互聯(lián)網(wǎng)絡(luò)的技術(shù)進一步突破。系列試驗均驗證了在不同拓撲中分布式智算中心無損網(wǎng)絡(luò)方案的有效性和穩(wěn)定性。此外,模可能出現(xiàn)的故障情況,以驗證方案在面對線路路障、服務(wù)器端口故障及其他異模型選取方面,在百卡組網(wǎng)規(guī)模下開展了LLAMA2-7B、LLAMA2-13B、圖4-1京津冀智算機房80km/120km繞行拉遠驗證組網(wǎng)圖4-2武清、瀛海、永豐三地IDC機房拉遠驗證組網(wǎng)圖4-3京津冀智算機房千卡120km繞行拉遠驗證組網(wǎng)項目組利用分布式智算中心無損網(wǎng)絡(luò)方案整合DC機房資源,在全球首次解決了百公里長距跨機房大模型訓(xùn)練難題。訓(xùn)練效率方面,在不同組網(wǎng)拓撲下不同模型跨機房訓(xùn)練均可達同機房訓(xùn)練
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師培訓(xùn)課件:高中新課程與音樂課程標準
- 盆腔淤血綜合征的健康宣教
- 八年級英語FriendsGrammar課件
- 《C語言程序設(shè)計d》課件-第四講-函數(shù)
- 特發(fā)性腹膜后纖維化的健康宣教
- 瘰疬分枝桿菌感染的臨床護理
- 慢性纖維性甲狀腺炎的臨床護理
- 中華優(yōu)xiu傳統(tǒng)文化(山東經(jīng)貿(mào)職業(yè)學(xué)院)知到智慧樹答案
- 《數(shù)據(jù)處理及誤差》課件
- 運營管理團隊協(xié)作培訓(xùn)
- 南京大學(xué)簡介PPT模板
- 國民體質(zhì)監(jiān)測
- 變形監(jiān)測試題庫
- 高速鐵路路基堆載預(yù)壓施工方案
- 《深圳市綜合整治類舊工業(yè)區(qū)升級改造操作規(guī)定》(征求意見
- 注塑作業(yè)指導(dǎo)書范本
- 五年級體質(zhì)健康數(shù)據(jù)
- 牛津英語9B-課文翻譯
- 綠化養(yǎng)護記錄表(共2頁)
- 真空蒸鍍中部分金屬熔點及不同氣壓下蒸發(fā)溫度
- 中日標準件對照表
評論
0/150
提交評論