




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、AI Fabric,開創(chuàng)以太網(wǎng)極速時代AI Fabric極速網(wǎng)絡(luò)架構(gòu)介紹計算、存儲升級使得網(wǎng)絡(luò)壓力凸顯存儲介質(zhì)的性能提升網(wǎng)絡(luò)通信時延占比50%以上,成為存儲性能瓶頸AI計算的能力提升網(wǎng)絡(luò)通信等待時間過長,制約AI計算加速比2 網(wǎng)絡(luò)對Incast流量處理能力制約應(yīng)用性能升級分布式存儲的流量特征深度學(xué)習(xí)的流量特征網(wǎng)絡(luò)設(shè)備對Incast流量有限的承受度,制約了AI應(yīng)用服務(wù)器節(jié)點規(guī)模的擴(kuò)展和分布式存儲IO吞吐的提高。3 RDMA從主機(jī)側(cè)加速數(shù)據(jù)傳輸,對網(wǎng)絡(luò)提出更高要求RDMA4 在戶空間、內(nèi)核空間和NIC上進(jìn)多次內(nèi)存拷貝,且需要CPU參與完成。多次拷貝增加了數(shù)據(jù)傳輸時延,同時耗費較多的CPU資源。RD
2、MA:無需在內(nèi)核和戶地空間之間拷貝數(shù) 據(jù),而是直接在內(nèi)存和NIC之間進(jìn),并由硬 件完成網(wǎng)絡(luò)傳輸。降低了拷貝帶來的時延,同時CPU零參與。RDMA網(wǎng)絡(luò)承載技術(shù)由IB轉(zhuǎn)向RoCE成本專網(wǎng)規(guī)模IBSSD/NVMGPUCPURoCE v2融合網(wǎng)絡(luò)獨特鏈路層,單獨組網(wǎng)比Ethernet貴50%集中控制,規(guī)模受限5 AI Fabric構(gòu)建新一代DCN極速無損以太網(wǎng)絡(luò)構(gòu)建DCN新一代極速無損以太網(wǎng)絡(luò),高吞吐,低時延無丟包Spine-1Spine-mToR-1ToR-2ToR-nAIFabric低時延高吞吐滿足AI計算和分布式存儲的業(yè)務(wù)訴求6 AI Fabric解決的網(wǎng)絡(luò)問題LEAFSPINELEAF發(fā)端NI
3、C發(fā)端vSwitchAPPAPP收端vSwitch收端NICIncast流量,擁塞反饋不及時Incast流量,擁塞反饋信息少Incast流量,擁塞反饋閥值設(shè)置不準(zhǔn)確,影響FCT6.Incast流量,PFC反 壓造成Deadlock、HOL和受害流,影響 FCT7.流量負(fù)載不均衡,造成擁塞,影響FCT大小流混雜,影響小流FCT混合流,影響非ECT的流高優(yōu)先級buffer耗盡,能夠 搶占低優(yōu)先級buffer問題域2:被動擁塞控制7 問題域3:流量均衡問題域4:混合流調(diào)度11. 被動擁塞控制算法,調(diào)速不精準(zhǔn),收斂慢問題域5:主動擁塞控制Incast流量設(shè)備內(nèi)丟包Incast流量,流之間不公平, 影響
4、FCT問題域1:設(shè)備內(nèi)丟包RoCE大量規(guī)模部署加速RDMA運維需求OTT用戶金融用戶用戶大量規(guī)模部署(幾百-幾千)RDMA運維新挑戰(zhàn)AI/HPC 分布式存儲RoCE v2AI智能性能優(yōu)化故障快速定位分析、預(yù)測招行現(xiàn)網(wǎng)PFC死鎖性能數(shù)據(jù)提取/可視化8 AI Fabric之RDMA運維自動化、智能化發(fā)現(xiàn)問題(RDMA KPI可視化/采集計算)定位問題(RDMA業(yè)務(wù)異常檢測/根因定位)解決問題(AI智能整網(wǎng)參數(shù)調(diào)優(yōu))RDMA網(wǎng)絡(luò)ACL 采集RDMA特征報文BRCMFPGA/NP計算上報KPIFPGA/NPFabric InsightRDMA KPI上報RTT,吞吐,MCT,丟包,CNP。PFC/EC
5、N配置錯誤欠吞吐時延大 丟包核心問題微突發(fā)PFC HOLPFC Storm PFC Deadlock 負(fù)載不均衡。可能誘因深度學(xué)習(xí)模型離線訓(xùn)練Spine策 略DL模 型訓(xùn)練Leaf 策 略DL模 型訓(xùn)練Server策略DL模型訓(xùn)練策略DL模型下發(fā)9 SW基于策略DL模型分布式在線決策在網(wǎng)分析、上下協(xié)同實現(xiàn)多樣化RDMA運維需求UI可視化呈現(xiàn)全局分析算法業(yè)務(wù)/網(wǎng)絡(luò)KPI全局算法單點算法 在網(wǎng)分析計算業(yè)務(wù)/網(wǎng)絡(luò)KPI業(yè)務(wù)&網(wǎng)絡(luò)KPI數(shù)據(jù)在網(wǎng)分析計算結(jié)果RDMA業(yè)務(wù)流上:算法 + 呈現(xiàn) - 可被第三方集成獲取RDMA KPI數(shù)據(jù)并UI呈現(xiàn)基于設(shè)備上報信息進(jìn)行全局分析定位、預(yù)測下:提取 + 計算 -
6、為上層提供所需信息提取并上送RDMA業(yè)務(wù)/網(wǎng)絡(luò)KPI基于單點信息分析定位、預(yù)測 - 單點預(yù)計算特征存儲10 網(wǎng)絡(luò)邊緣智能化,實現(xiàn)RDMA可視化RoCE v2采集器 & 分析器成本高:大規(guī)模集群,以滿 足采集、存儲、計算能力通道壓力大:RDMA網(wǎng)絡(luò)n*10Gbps級上送數(shù)據(jù)量12RDMA特征數(shù)據(jù)集中上送、計算BRCM專用硬件芯片BRCM采集器 & 分析器RDMA KPIRDMA流量專用硬件芯片RDMA特征數(shù)據(jù)RDMA KPI采集計算邊緣智能化,即:分布式在網(wǎng)絡(luò)設(shè)備上實現(xiàn)11 三類典型的RDMA故障/異常運維場景RDMA 運維場景性能問題相關(guān)類欠吞吐、時延大、丟包、抖動技術(shù)復(fù)雜性導(dǎo)致問題原因復(fù)雜PFC問題相關(guān)類PFC Deadlock、HOL、Storm等PFC技術(shù)帶來很多系統(tǒng)級問題RDMA應(yīng)用相關(guān)類AI/HPC、分布式存儲、及其組合RDMA應(yīng)用對網(wǎng)絡(luò)性能敏感招行現(xiàn)網(wǎng)MicrosoftMellanox12 基于AI使能RoCE網(wǎng)絡(luò)智能參數(shù)優(yōu)化RoCE v2網(wǎng)絡(luò)參數(shù)多,配置工作量大大量參數(shù)交織影響,人工難以確 定合適參數(shù)組合參數(shù)配
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出口營銷合同范例
- 買賣兜底合同范例
- 公費師范生履約合同范例
- 會展廣告合同范例
- 保安開除員工合同范例
- 農(nóng)村地皮贈送合同范例
- 倉儲占地合同范例
- 公司外貿(mào)合同范例
- 個人送餐合同范例
- 農(nóng)場車庫出租合同范例
- 2025年安徽電氣工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫匯編
- 19父愛之舟課件
- 2025年皖西衛(wèi)生職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫附答案
- 2025年合肥財經(jīng)職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 2025年阜新高等??茖W(xué)校單招職業(yè)技能測試題庫審定版
- 隧道智能照明控制系統(tǒng)研究
- 課件圍術(shù)期下肢深靜脈血栓的預(yù)防與護(hù)理
- 2025年菏澤家政職業(yè)學(xué)院單招職業(yè)技能測試題庫完美版
- 清華大學(xué)告訴你普通人如何抓住DeepSeek紅利
- 農(nóng)業(yè)機(jī)械設(shè)備維護(hù)與質(zhì)量保障措施
- 基于圖像處理的CAD圖紙比對算法
評論
0/150
提交評論