版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
[編號ODCC-2024-0B001]開放數(shù)據(jù)中心標準推進委員會2024.09發(fā)布版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點的,應注明I編寫組 I 1 1 5 5 6 62.全調(diào)度架構(gòu)(FullySche 73.全調(diào)度以太網(wǎng)(GSE,GlobalSche 10 技術(shù)迅速觸發(fā)了AI大模型算力基礎(chǔ)設施建設的軍備競賽,數(shù)據(jù)中心建設正式從“云化時代”轉(zhuǎn)向“算力時代”,從以通用計算CPU為主的算力時代向以智能計算GPU為主的算力時代過渡。云計算時代數(shù)據(jù)和400G高速網(wǎng)絡接入為主,所使用的通信協(xié)議RDMA采用硬件實網(wǎng)絡建設成為影響算力基礎(chǔ)設施整體計算能智算中心主要承載AI大模型訓練業(yè)務,其業(yè)務特點要求智算中1另外,傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡的ECMP等價路由逐流轉(zhuǎn)發(fā)模式,會AI大模型訓練涉及大量的數(shù)據(jù)傳輸,包括模型參數(shù)的同步、梯2于模型更快地完成一輪訓練,加速收斂過程由于端側(cè)設備智能網(wǎng)卡/DPU在支持多路徑亂序傳輸能力時,通常會3用于智算中心網(wǎng)絡互聯(lián)的RDMA智能網(wǎng)卡產(chǎn)品,通常需要支持幾千長時間的大模型訓練過程不能容忍網(wǎng)絡故障導致的訓練中斷或修改通信時的數(shù)據(jù)流信息實現(xiàn)網(wǎng)絡轉(zhuǎn)發(fā)過程中4單條流的數(shù)據(jù)包會在同一路徑轉(zhuǎn)發(fā),而ECMP路由哈希選路的時候傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡多路徑傳輸網(wǎng)絡隨著智算中心網(wǎng)絡的發(fā)展和對網(wǎng)絡吞吐性能要求的提高,多路徑5Processing)、NCF(Net交換機的位置,NCP從網(wǎng)卡側(cè)接收到網(wǎng)絡數(shù)據(jù)后,切分成多個長度6通過Credit授權(quán)的方式避免網(wǎng)絡內(nèi)部丟包,網(wǎng)卡側(cè)和NCP之間通過ScheduledFabric該技術(shù)采用入口虛擬輸出隊列(IngressVirtual7并沒有采用傳統(tǒng)的ECMP路由哈希選路的方式選擇一條路徑,而是交換機的總帶寬大于等于入口Leaf交換機與網(wǎng)卡之間的總帶寬,則如上圖所示,數(shù)據(jù)包從入口Leaf交換機經(jīng)過的發(fā)送給所有Spine交換機,而不是選擇一條路徑轉(zhuǎn)發(fā)給出口Leaf8一種基于報文容器(PKTC)的轉(zhuǎn)發(fā)及負載分擔機制。該機制根據(jù)最終設備或設備出端口,將數(shù)據(jù)包邏輯分組,并長”容器進行轉(zhuǎn)發(fā)。屬于同一個報文容器的數(shù)據(jù)包被標記為相同的容9在多路徑亂序傳輸網(wǎng)絡中,端側(cè)設備智能網(wǎng)卡/DPU策略驅(qū)動由行為以及智能網(wǎng)卡/DPU在端側(cè)與應用更近的優(yōu)勢,實現(xiàn)亂序數(shù)據(jù)直臨時存儲,實現(xiàn)方式更簡單。不足是需要智能網(wǎng)卡/DPU和交換機設SuperNIC配合支持完整的自適應路由功能,Spetrum交換機上根據(jù)上不同路徑轉(zhuǎn)發(fā)到目的網(wǎng)卡時,會存在亂序情況,在SuperNIC上中包括了主要四大功能,分別是(GLB)GlobalLoadBalancing,博通在推出GLB技術(shù)之前,已經(jīng)有一個能夠感知本地出口負載情況力的GLB技術(shù),如下圖,在路由初次選路的時候,會根據(jù)全局路徑知路由又增加了ReactivePathRebalancing能力,即在每一個包轉(zhuǎn)發(fā)要能夠支持亂序處理能力的智能網(wǎng)卡/DPU來配合完成多路徑負載均如上圖所示,在發(fā)送端智能網(wǎng)卡/DPU在發(fā)送數(shù)據(jù)包的時候,將),利用RDMA擴展頭RETH(RDMAExtendedT能力的新協(xié)議包括UEC(UltraEthernetConsortium給OCP的Falcon,對應國內(nèi)主要支持亂序傳輸網(wǎng)絡的新協(xié)RDMA網(wǎng)絡端側(cè)設備通常具備高性能通信能力,RDM由網(wǎng)卡芯片硬件實現(xiàn),在有限的硬件資源條件內(nèi),支持RDMA這樣網(wǎng)絡時延,在不同時延時網(wǎng)絡的吞吐能力情況??梢奟outing或SelectiveRepeat時,在大于70微秒網(wǎng)絡時延時網(wǎng)絡性能有明顯下降趨勢,在Go-Back-N重傳模式,則可以達到300微秒網(wǎng)在亂序傳輸網(wǎng)絡中,通過多路徑傳輸方式可以降低在網(wǎng)絡中Spine設備上的轉(zhuǎn)發(fā)排隊時間,對比傳統(tǒng)的逐流轉(zhuǎn)發(fā)模式,能夠有效度則成為了另一個影響網(wǎng)絡性能關(guān)鍵因素,傳,重傳的方式和過程會對網(wǎng)絡性能產(chǎn)生影響。RDMA協(xié)議上支持不同丟包比例時,100G接口模式各種重傳方式的吞吐列PSN(PacketSequenceNumber)來判斷是否存在丟包,如果存在丟包則立即通過NAK(NegativeACK)報文觸發(fā)重傳,所以在網(wǎng)絡低的網(wǎng)絡中丟包率也較低時,選擇性重傳(重傳的效率都比Go-Back-N重傳低,隨著丟包率的增加,選擇性重沒有接收到完整數(shù)據(jù)無法對之前的數(shù)據(jù)包進行ACK確認,此時發(fā)送端側(cè)會出現(xiàn)發(fā)送窗口耗盡而未接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高中語文第二單元置身詩境緣景明情自主賞析夢游天姥吟留別學案新人教版選修中國古代詩歌散文欣賞
- 2024高考化學一輪復習第十一章有機化學基礎(chǔ)第三講烴的含氧衍生物規(guī)范演練含解析新人教版
- 2024高考地理一輪復習第七章區(qū)域產(chǎn)業(yè)活動第24講工業(yè)區(qū)位因素與工業(yè)地域聯(lián)系教案湘教版
- DB42-T 2341-2024 綜合管廊頂管工程技術(shù)規(guī)程
- 二零二五年版環(huán)保建材板材買賣合同范本3篇
- 2024年海南經(jīng)貿(mào)職業(yè)技術(shù)學院高職單招語文歷年參考題庫含答案解析
- 2024年海南體育職業(yè)技術(shù)學院高職單招語文歷年參考題庫含答案解析
- 危險化學品典型案例課件
- 2024年河南對外經(jīng)濟貿(mào)易職業(yè)學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 二零二五年城市夜景照明設施改造與維護服務合同范本3篇
- 航空航天鍛鑄造行業(yè)深度報告
- ABB-XE系列電磁流量計操作手冊
- 付款通知確認單
- 汽機油管道安裝方案指導
- 2022年中國城市英文名稱
- 下肢皮牽引護理PPT課件(19頁PPT)
- 電 梯 工 程 預 算 書
- 參會嘉賓簽到表
- 形式發(fā)票格式2 INVOICE
- 2.48低危胸痛患者后繼治療評估流程圖
- 人力資源管理之績效考核 一、什么是績效 所謂績效簡單的講就是對
評論
0/150
提交評論