版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
發(fā)展新型智算中心
打造智能算力網(wǎng)絡段曉東中國移動研究院中國移動算力網(wǎng)絡發(fā)展歷程回顧算力網(wǎng)絡發(fā)展主線中國移動從算網(wǎng)基礎設施構建、業(yè)務融合創(chuàng)新、創(chuàng)新技術引領等多方面系統(tǒng)化推進算力網(wǎng)絡建設和發(fā)展主線三面向創(chuàng)新技術引領主線一面向算網(wǎng)基礎設施構建主線二面向業(yè)務融合創(chuàng)新物理空間、邏輯空間、異構空間、多主體算力融通“4+N+31+X”布局,1100邊緣節(jié)點打造20ms、5ms、1ms三級時延圈SRv6/G-SRv6打造統(tǒng)一算網(wǎng)底座實現(xiàn)算網(wǎng)高效協(xié)同,支持CHBN業(yè)務融合發(fā)展,打造算網(wǎng)全新生態(tài)產(chǎn)品算力化和算力產(chǎn)品化發(fā)布算網(wǎng)服務1.0構筑算網(wǎng)大腦實現(xiàn)創(chuàng)新技術引領,打造原創(chuàng)技術策源地三橫兩域體系架構提出十大技術發(fā)展方向三十二大核心技術繼往開來,成功邁入算力網(wǎng)絡新階段起步:泛在協(xié)同發(fā)展:融合統(tǒng)一跨越:一體內(nèi)生協(xié)同編排網(wǎng)隨算動智慧內(nèi)生算網(wǎng)一體一站服務、協(xié)同運營融合服務、統(tǒng)一運營一體服務,模式創(chuàng)新十四五階段十五五階段及更長期2021-20232024-20252025~算網(wǎng)融合智能編排構筑算力網(wǎng)絡發(fā)展源動力,開創(chuàng)算網(wǎng)一體原創(chuàng)技術體系算力網(wǎng)絡是算網(wǎng)交叉學科創(chuàng)新的重大契機,目標遠大必付之全力。為構筑算力網(wǎng)絡發(fā)展源動力,實現(xiàn)算網(wǎng)新服務的目標愿景,中國移動開創(chuàng)算網(wǎng)一體原創(chuàng)技術體系,聯(lián)合產(chǎn)業(yè)一道形成一批我國原創(chuàng)技術廣域RDMA突破廣域傳輸性能瓶頸空芯光纖新型光纖介質(zhì)與系統(tǒng)在網(wǎng)計算打破算網(wǎng)邊界全調(diào)度以太突破無損以太性能瓶頸算力度量打破單維算力指標移動算力5G、6G新增計算面算力路由突破互聯(lián)網(wǎng)架構協(xié)議存算一體突破馮氏架構算力原生實現(xiàn)應用跨架構遷移400G/800G超高速大容量全光網(wǎng)絡G-SRv6統(tǒng)一IP承載協(xié)議算力卸載多算力形態(tài)統(tǒng)一底座算力并網(wǎng)實現(xiàn)算力供給側改革新一代SD-WANUnder與Overlay協(xié)同算力解構應用模塊化解構部署算力智能內(nèi)生計算要素創(chuàng)智能服務空天地一體突破異構算網(wǎng)融合隱私計算安全數(shù)據(jù)分析計算應用感知應用類型識別OTN光電聯(lián)動新型全光網(wǎng)架構全光接入新型接入網(wǎng)架構云原生敏捷高效體系總線互聯(lián)卡間高速通信50G
PON+FTTR新型接入網(wǎng)架構原創(chuàng)技術“5顆珍珠”:算力原生、算力路由、全調(diào)度以太、在網(wǎng)計算、G-SRv6算力路由(CATS)②CA-BGP-LS:
出口節(jié)點向算力控制節(jié)點通告算力狀態(tài)信息①CA-BGP:采集算力信息,通過擴展BGP協(xié)議進行通告③CA-OSPF:在域內(nèi)泛洪算力信息為路由提供參考⑤CA-Restful/json:通過restful協(xié)議接口收集Json消息算力信息④CA-Netconf/yang:通過Netconf協(xié)議下發(fā)Yang模型算力配置算力路由協(xié)議簇算力路由組網(wǎng)架構歷時4年推動IETF成立算力路由工作組CATS,中國移動擔任主席2019~2022年5次研討會2023年3月
CATS
WG成立暨首次會議,是路由域最受歡迎的工作組之一算力路由的提出①發(fā)現(xiàn)問題云邊以及邊邊調(diào)度之間出現(xiàn)“性能反轉(zhuǎn)”②問題本質(zhì)計算和網(wǎng)絡是獨立系統(tǒng)算的負載和網(wǎng)的擁塞信息沒有產(chǎn)生關聯(lián)③解決思路在路由中引入計算信息,進行聯(lián)合調(diào)度工作組范疇和計劃目前已經(jīng)完成工作組首個立項:CATS問題分析、場景及需求聚力“高、廣、深”,實現(xiàn)新發(fā)展推動算力成為與水電一樣,“一點接入、即取即用”社會級服務最終實現(xiàn)“網(wǎng)絡無所不達、算力無所不在、智能無所不及”的愿景提升高度拓展廣度挖掘深度算為中心①打造算力供給高峰網(wǎng)為根基②實現(xiàn)深度融合統(tǒng)一多要素融合③開創(chuàng)一體化服務④模式以算為中心①、網(wǎng)為根基②,網(wǎng)、云、數(shù)、智、安、邊、端、鏈等深度融合③、提供一體化服務④的新型信息基礎設施打造智能算力新高峰——NICC新型智算中心以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標,形成集約化建設的E級超大規(guī)模算力基礎設施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓練和推理新型智算中心新算效新互聯(lián)新存儲新平臺新節(jié)能1、新型智算中心是對傳統(tǒng)云數(shù)據(jù)中心的飛躍單機柜40KW,冷板式液冷算力池化,分布式訓練獨立存儲 風冷裸機/虛機/容器冷板/浸沒式液冷內(nèi)存池化算力原生異構時期(~2021)中小模型PCIe 25G傳統(tǒng)以太集群時期(~2025)中大模型(百億-千億)單機8卡高速互聯(lián)
高性能無損網(wǎng)絡扣卡模組 DPU海量非結構化數(shù)據(jù),融合存儲在新互聯(lián)、新算效、新存儲、新平臺、新節(jié)能等五大方面進行系統(tǒng)性重構,推動NICC新型智算中心傳統(tǒng)云數(shù)據(jù)中心超級池化時期(2025~)大模型(千億-萬億)百卡高速總線互聯(lián)
GSE存算一體平臺存儲節(jié)能算效互聯(lián)2、NICC新型智算中心的架構基礎設施智算平臺ROCmTesnsorFlowPyTorchPaddlePaddleDeepSpeed存儲計算液冷高效供電機房配套冷卻水系統(tǒng)應用使能......跨架構編譯器算力抽象運行時CUDA CANN算力原生智算運維裸金屬實例容器實例文件 對象融合存儲塊 內(nèi)存池全局統(tǒng)一存儲Hypervisor
+虛擬機實例AI開發(fā)框架智算運營跨節(jié)點分布式訓練調(diào)度運營管理模塊編排調(diào)度 計量計費算力交易 用戶界面運維管理模塊開發(fā)管理 交付管理IaaS管理模塊虛機 容器 裸機存儲 網(wǎng)絡強化互聯(lián)技術、深化算力協(xié)同、定義新型存儲、新增算力原生、升級綠色節(jié)能構建標準統(tǒng)一、技術領先、軟硬協(xié)同、兼容開放的NICC新型智算中心技術體系網(wǎng)絡RoCEGSE平臺存儲互聯(lián)節(jié)能算效CPU
GPU
DPU
CIM高速互聯(lián)計算總線3-1、NICC新互聯(lián)——高速互聯(lián)計算總線千億模型:高通信需求(張量并行)集中8卡之間300123012123456745674567...Sever
NSever
2Sever
1SuperSever(S2)架構萬億模型:高通信需求(MoE并行)集中在百卡之間0 1230123 … 01234 56745674567基于高速計算總線的S2的架構模型參數(shù)從千億邁向萬億,互聯(lián)高需求從8卡擴展到百卡間0 1 2 3 4 5 ...
N一組有N張GPU/AI卡0 1 2 3 4 5 ...
N一組有N張GPU/AI卡計算總線總線Switch總線Switch總線Switch總線
Switch總線
Switch總線
Switch總線
Switch更低延遲的內(nèi)部通信更高效的數(shù)據(jù)讀寫更靈活的拓撲連接模型從千億到萬億,高速卡間互聯(lián)需求從8卡擴展到百卡,智算設備形態(tài)將從S(Server
服務器)演變?yōu)镾2(Super
Server,超級服務器),帶來智算中心底層互聯(lián)技術的全新變革3-1、NICC新互聯(lián)——高性能新以太互聯(lián)網(wǎng)絡InfiniBand專用網(wǎng)絡、超高性能、成本昂貴傳統(tǒng)無損以太生態(tài)開放、性能有限、性價比高以開放破壟斷以創(chuàng)新提性能大模型以分布式訓練為基礎,通信開銷導致GPU集群有效算力難以線性提升,網(wǎng)絡成為AI算力“瓶頸”,亟需構建以新型以太網(wǎng)技術為基礎,開放兼容、超高性能的新型智算中心網(wǎng)絡技術體系傳統(tǒng):網(wǎng)絡性能和成本無法兼得
未來:突破以太技術、升級高速互聯(lián)流級ECMP被動擁塞控制獨立轉(zhuǎn)發(fā)決策基礎轉(zhuǎn)發(fā)機制導致AI場景性能受限盲發(fā)+被動擁塞控制“局部”決策轉(zhuǎn)發(fā)逐流分發(fā)感知+主動流量控制“全局”最優(yōu)調(diào)度逐“報文容器”分發(fā)分發(fā)粒度發(fā)流模式轉(zhuǎn)發(fā)策略創(chuàng)新全調(diào)度以太網(wǎng)(GSE),革新以太網(wǎng)底層轉(zhuǎn)發(fā)機制,增強物理層、鏈路層、網(wǎng)絡層、傳輸層協(xié)議能力,全面提升網(wǎng)絡性能AS-IS TO-BE3-2、NICC新存儲——內(nèi)存池化傳統(tǒng)CPU和GPU分立的存儲架構,導致數(shù)據(jù)大量搬移,影響模型訓練效率需要構建CPU和GPU間的統(tǒng)一內(nèi)存池,減少數(shù)據(jù)搬運,簡化編程開發(fā),使模型訓練更加高效未來:HBM和DDR池化傳統(tǒng):HBM和DDR分立數(shù)據(jù)多次復制,延遲高,影響模型訓練效率AI模型開發(fā)復雜,需要手動管理數(shù)據(jù)搬移CPUGPUDDRHBMCPUGPU統(tǒng)一內(nèi)存池CPUGPUGPUGPUGPUGPUDDRHBMDDRHBM數(shù)據(jù)無需多次搬運,GPU可快速訪問巨量共享內(nèi)存提供統(tǒng)一尋址空間,AI軟件模型開發(fā)簡化3-3、NICC新算效——升級計算架構隨著NICC向超級池化階段發(fā)展,解決海量數(shù)據(jù)處理要求,需要聚焦GPU升級,突破性能瓶頸,加強CPU、GPU、DPU三大芯片協(xié)同。未來,探索存算一體新型計算范式,達到能效比數(shù)量級提升下一代GPU芯片設計性能瓶頸顯存帶寬和容量的制約數(shù)據(jù)搬移的功耗激增演進路線①
存儲一體化設計②
稀疏化設計③
算法和芯片協(xié)同設計④
低時延推理架構設計GPU、CPU、DPU三大芯片協(xié)同三大芯片協(xié)同提升算效迎接更加爆炸式的數(shù)據(jù)處理需求存算一體,突破傳統(tǒng)計算范式突破馮·諾依曼架構達到能效比數(shù)量級提升面向大模型推理場景基于SRAM,中大算力,100Tops+無限擦寫,數(shù)模混合,精度拼接CPUGPU DPUGPU+DPU,參數(shù)面網(wǎng)卡升級,進一步滿足可編程擁塞控制及大QP數(shù)量等前沿需求GPU+DPU+CPU,智算資源并池,大幅優(yōu)化智算集群管理效率,實現(xiàn)文件存儲卸載,加速訓推過程3-4、NICC新平臺
——
引入算力原生智算應用難以在多樣豎井化智算生態(tài)間遷移部署,制約系統(tǒng)整體運用效能。中國移動原創(chuàng)提出算力原生技術,打造“芯合”算力原生跨架構平臺,打破“框架+工具鏈+硬件”緊耦合生態(tài)鎖定,屏蔽底層硬件差異,繁榮全“芯”生態(tài)原生程序格式規(guī)范全系統(tǒng)共識的“
中間元語”
。H
o
s
t
側、Device側指令元語及執(zhí)行策略的一體承載
?
原生運行時實現(xiàn)“中間元語”跨廠商的再裝配,智算應用跨架構、可變粒度映射執(zhí)行一次開發(fā)、一次封裝、跨芯遷移算力原生層跨架構流轉(zhuǎn)的原生程序
原生運行時編程模型轉(zhuǎn)換、編譯、優(yōu)化程序加載動態(tài)鏈接NeuWare……CANNoneAPICUDAROCm硬件層應用層框架層工具鏈Pytorch……跨架構綜合編譯器
實現(xiàn)圖算融合的跨架構綜合編譯、多級IR互轉(zhuǎn)優(yōu)化,生成中間元語格式的算力原生程序√√√3-5、NICC新節(jié)能——標準化大規(guī)模液冷技術TDP(W)2016~20192020~20212022~CPU150-250250-300300-400250400500700 GPU300W智算中心走向超大規(guī)模,面對不斷攀升的能耗需求,液冷是必經(jīng)之路但液冷產(chǎn)業(yè)生態(tài)不完善,設備標準化程度低,需要通過“五大統(tǒng)一”實現(xiàn)三“極”目標挑戰(zhàn)1:單一AI服務器功耗超過10kW
挑戰(zhàn)2:單機柜功耗超過40kW通用服務
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024裝修垃圾清運合同范本
- 2024年廢棄物處理爆破合同
- 2024家庭保姆用工合同版
- 2024年商場室內(nèi)LED廣告屏購銷合同
- 2024年工程項目質(zhì)量保證與驗收合同條款
- 二手房產(chǎn)買賣合同協(xié)議模板
- 2024年簡化版購房合同協(xié)議
- 各類維修合同范文集成
- 合同訴訟時效問題
- 2024版店鋪合租合同樣本
- GB∕T 33217-2016 沖壓件毛刺高度
- 貸款客戶信息登記表
- 旅游政策與法規(guī) 教學大綱
- 垃圾焚燒鍋爐低溫烘爐方案
- 直線和雙曲線交點問題
- DB31∕T 398-2015 建筑垃圾車技術及運輸管理要求
- 電力物資倉儲管理問題分析及提升措施5200字
- 高中數(shù)學公式(蘇教版)
- 危險源辨識與風險評價全流程講解
- 建筑建筑物改造的防雷接地方案
- 能源與動力工程專業(yè)英語詞匯
評論
0/150
提交評論