版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中國移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考姓名:王瑞雪ooe二、智算中心網(wǎng)絡(luò)面臨的挑戰(zhàn)ooe三、智算中心網(wǎng)絡(luò)創(chuàng)新實(shí)踐智算中心背景與需求AIGC(AI-GeneratedContent,人工智能生產(chǎn)內(nèi)2000億元(2025年)千億、萬億級新型智算中心—(N.CC以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標(biāo),形成集約化建設(shè)的E級超大規(guī)模算力基礎(chǔ)設(shè)施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓(xùn)練和推理NICC新型智算中心技術(shù)體系布局攻關(guān)創(chuàng)新技術(shù)推動(dòng)智算發(fā)展布局攻關(guān)創(chuàng)新技術(shù)推動(dòng)智算發(fā)展PyTorchDeepSpeedTesnsorFlowPaddlePaddle構(gòu)建智算芯片快速互聯(lián)標(biāo)準(zhǔn)體系,提升卡間互聯(lián)性能PyTorchDeepSpeedTesnsorFlowPaddlePaddle構(gòu)建智算芯片快速互聯(lián)標(biāo)準(zhǔn)體系,提升卡間互聯(lián)性能無阻塞、高帶寬、低時(shí)延網(wǎng)絡(luò),提升節(jié)點(diǎn)間的傳輸性能構(gòu)建統(tǒng)一內(nèi)存池,實(shí)現(xiàn)一致性內(nèi)存語義和空間尋址智算運(yùn)營跨架構(gòu)編譯器智算運(yùn)營跨架構(gòu)編譯器算力抽象運(yùn)行時(shí)ROCm平臺(tái)CUDACANNCUDACANN虛擬機(jī)實(shí)例容器實(shí)例智算運(yùn)維與計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)深度協(xié)同,助力算效提升?!靶竞稀彼懔υ脚_(tái),使能應(yīng)用一次開發(fā),跨架構(gòu)遷移聚焦液冷服務(wù)器和機(jī)柜的接口標(biāo)準(zhǔn),優(yōu)化運(yùn)維管理能力存儲(chǔ)算效虛擬機(jī)實(shí)例容器實(shí)例智算運(yùn)維與計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)深度協(xié)同,助力算效提升?!靶竞稀彼懔υ脚_(tái),使能應(yīng)用一次開發(fā),跨架構(gòu)遷移聚焦液冷服務(wù)器和機(jī)柜的接口標(biāo)準(zhǔn),優(yōu)化運(yùn)維管理能力存儲(chǔ)算效文件對象塊內(nèi)存池GPUDPUAIDSA全局統(tǒng)一存儲(chǔ)融合存儲(chǔ)裸金屬實(shí)例RoCERoCEGSEGSE高速互聯(lián)計(jì)算總線高速互聯(lián)計(jì)算總線高效供電冷卻水系統(tǒng)液冷節(jié)能高效供電冷卻水系統(tǒng)液冷節(jié)能服務(wù)器內(nèi)Tensor并行(機(jī)內(nèi)總線通信)服務(wù)器內(nèi)Tensor并行(機(jī)內(nèi)總線通信)服務(wù)器間數(shù)據(jù)并行(網(wǎng)絡(luò)同軌通信)大模型訓(xùn)練通信特點(diǎn):服務(wù)器間數(shù)據(jù)并行(網(wǎng)絡(luò)同軌通信)大模型訓(xùn)練通信特點(diǎn):集群有效算力∝{GPU單卡算力*總卡數(shù)*線性加速比*有效運(yùn)行時(shí)}GPU集群性能≠單GPU性能*NH800(400G*8)服務(wù)器,51.2T可支持1024臺(tái)服務(wù)器組網(wǎng),12.8T僅支持64臺(tái)服務(wù)器組網(wǎng)AI業(yè)務(wù)對丟包敏感,2%的丟包就會(huì)使RDMA吞吐率下降為0傳統(tǒng)無損以太技術(shù)存在性能瓶頸,需從底層機(jī)制革新基于流轉(zhuǎn)發(fā),流數(shù)量少導(dǎo)致哈希失效,鏈路負(fù)載不均源端任意向網(wǎng)絡(luò)推流,出現(xiàn)擁塞被動(dòng)降速,GPU閑置等待衡極易造成多個(gè)流哈希到同一條鏈路,造成部分?方向:對每條流的多個(gè)數(shù)據(jù)包逐個(gè)進(jìn)行負(fù)載分擔(dān),實(shí)現(xiàn)單流在全?問題:傳統(tǒng)以太網(wǎng)源端發(fā)流不關(guān)注網(wǎng)絡(luò)情況及目的端接受能力,直流量?方向:源端向目的端“請求”發(fā)送權(quán)限,基于網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的被動(dòng)現(xiàn)有以太網(wǎng)協(xié)議基礎(chǔ)轉(zhuǎn)發(fā)和調(diào)度機(jī)制,在AI模型訓(xùn)練場景存在天然缺陷,單純優(yōu)化上層網(wǎng)絡(luò)協(xié)議無法解決,需深入底層基礎(chǔ)協(xié)議,對物理層、MAC層轉(zhuǎn)發(fā)機(jī)制進(jìn)行革新,突破無損以太性能瓶頸全調(diào)度以太網(wǎng)(GSE)技術(shù)特征聯(lián)合產(chǎn)業(yè)發(fā)布全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu),最大限度兼容以太網(wǎng)生態(tài),創(chuàng)新基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及調(diào)度機(jī)制,構(gòu)建無阻塞、高帶寬、低時(shí)延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,實(shí)現(xiàn)三大核心機(jī)制轉(zhuǎn)變321 1213LeafLeaf2133211213LeafLeaf2133211當(dāng)前:逐流負(fù)載,鏈路利用率低、發(fā)生擁塞被動(dòng)降速未來:逐報(bào)文容器轉(zhuǎn)發(fā),鏈路負(fù)載均衡,全局調(diào)度,避免擁塞全調(diào)度以太網(wǎng)(GSE)組網(wǎng)場景GSE協(xié)議可根據(jù)網(wǎng)絡(luò)設(shè)備和網(wǎng)卡能力,將方案各組件功能在網(wǎng)絡(luò)組件中重新分工,支持多種組網(wǎng)場景,為后續(xù)網(wǎng)絡(luò)建設(shè)和設(shè)備選型提供靈活的選擇方案場景一:僅網(wǎng)側(cè)運(yùn)行GSE,網(wǎng)卡不感知場景一:僅網(wǎng)側(cè)運(yùn)行GSE,網(wǎng)卡不感知場景二:部分功能下沉網(wǎng)卡,實(shí)現(xiàn)端網(wǎng)協(xié)同場景二:部分功能下沉網(wǎng)卡,實(shí)現(xiàn)端網(wǎng)協(xié)同?GSP和GSF角色均由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)源GSP、GSF由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)行GSE全調(diào)度以太網(wǎng)(GSE)推進(jìn)進(jìn)展技術(shù)要求》聯(lián)合產(chǎn)業(yè)推動(dòng)GSE方案成熟,形成開放統(tǒng)一的技術(shù)標(biāo)準(zhǔn)體系聯(lián)合儀表廠家開展合作,制定普適統(tǒng)一的網(wǎng)絡(luò)功能、性能評估方法依托中國移動(dòng)CIFIT試驗(yàn)網(wǎng),驗(yàn)證新型網(wǎng)絡(luò)技術(shù),推動(dòng)技術(shù)成熟與規(guī)模建設(shè)全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃中國移動(dòng)攜手中國信通院,聯(lián)合國內(nèi)外三十余家主流互聯(lián)網(wǎng),設(shè)備商、芯片商、高校院所聯(lián)合發(fā)起GSE推進(jìn)計(jì)劃,推動(dòng)智算中心網(wǎng)絡(luò)技術(shù)創(chuàng)新、標(biāo)準(zhǔn)完善和產(chǎn)業(yè)應(yīng)用,打造高速無損、開放兼容的新型智算中心網(wǎng)絡(luò)技術(shù)體系全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃研究范疇:?網(wǎng)絡(luò)層:新型組網(wǎng)拓?fù)?、新型組播/任播協(xié)議等;成員情況:?管理和運(yùn)維體系:網(wǎng)絡(luò)可視化、可調(diào)試能力、多維自動(dòng)化能力期待更多產(chǎn)學(xué)研合作伙伴加入GSE推進(jìn)計(jì)劃,攜手共建新型智算中心網(wǎng)絡(luò)產(chǎn)業(yè)生態(tài)!業(yè)務(wù)通信原語與網(wǎng)絡(luò)通信模型存在差異分布式系統(tǒng)節(jié)點(diǎn)間以多對多的集合通信為主,業(yè)界主流方案基于RDMA點(diǎn)到點(diǎn)高效傳輸,實(shí)現(xiàn)多對多集合通信,存在性能瓶頸N1當(dāng)前組播實(shí)現(xiàn)方式多播業(yè)務(wù)效率問題當(dāng)前組播實(shí)現(xiàn)方式擴(kuò)展性問題?有測試表明,RDMA商用網(wǎng)卡在QP數(shù)量超過256時(shí),吞吐即會(huì)出WangZ,LuoLNingNDMA面向集合通信的原生設(shè)計(jì),最優(yōu)化集合通信性能網(wǎng)絡(luò)級DMA(NDMA)對網(wǎng)絡(luò)中一組節(jié)點(diǎn)內(nèi)存直讀/寫,是面向集合通信的原生傳輸框架,通過端網(wǎng)協(xié)同,將業(yè)務(wù)邏輯下沉,結(jié)合網(wǎng)絡(luò)多播能力,實(shí)現(xiàn)組播、任播和聚播的高效傳輸交換機(jī)無處理QPType:RCOp:SendOnly交換機(jī)復(fù)制報(bào)文交換機(jī)復(fù)制報(bào)文ASISTOASISTOBE組播組播交換機(jī)匯聚ACK交換機(jī)匯聚ACK新QPType:CC聚播新QPType:CC新QPType:CC聚播新QPType:CC 任播數(shù)據(jù)直回新QPType:數(shù)據(jù)直回新QPType:ANYC(復(fù)用RD)新QPType:ANYC(復(fù)用RD)原始請求56->54交換機(jī)經(jīng)計(jì)算后修改報(bào)文目的ip:56->53NDMA性能驗(yàn)證結(jié)果消息均有顯著性能提升,任務(wù)完成時(shí)間平均降方式,NDMA使得存儲(chǔ)IOPS提升45%以上?新測組分論壇——NDMA技術(shù)白皮書及解讀原型介紹,華為、星云智聯(lián)展臺(tái)可看原型現(xiàn)場演示及網(wǎng)卡實(shí)物展示總結(jié)與展望?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東科學(xué)技術(shù)職業(yè)學(xué)院《民航英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東酒店管理職業(yè)技術(shù)學(xué)院《現(xiàn)場總線控制技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東金融學(xué)院《家用電器設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工業(yè)大學(xué)《反應(yīng)工程概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東東軟學(xué)院《技術(shù)經(jīng)濟(jì)分析與生產(chǎn)管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東創(chuàng)新科技職業(yè)學(xué)院《第二外語日語(二)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東白云學(xué)院《科學(xué)技術(shù)與工程倫理》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南師范大學(xué)科技學(xué)院《中國當(dāng)代文學(xué)(2)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛州師范高等專科學(xué)?!队袡C(jī)寶石學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 甘孜職業(yè)學(xué)院《生物技術(shù)綜合性實(shí)驗(yàn)?zāi)K》2023-2024學(xué)年第一學(xué)期期末試卷
- 西安市高新第一中學(xué)八年級上冊地理期末試卷(含答案)
- 2025年全國高考體育單招考試政治模擬試卷試題(含答案詳解)
- 2024年廣東省深圳市中考英語適應(yīng)性試卷
- 普法學(xué)法知識(shí)考試題庫(100題附答案)
- DB37-T 1722-2024公路工程高性能瀝青混合料施工技術(shù)規(guī)范
- 四年級數(shù)學(xué)上冊期末試卷
- 道 法+在勞動(dòng)中創(chuàng)造人生價(jià)值 課件-2024-2025學(xué)年統(tǒng)編版道德與法治七年級上冊
- 2023年黑龍江民族職業(yè)學(xué)院招聘工作人員考試真題
- 北京林業(yè)大學(xué)《計(jì)算機(jī)網(wǎng)絡(luò)安全》2023-2024學(xué)年期末試卷
- 基因檢測與健康保險(xiǎn)
- 實(shí)驗(yàn)室安全教育課件
評論
0/150
提交評論