計算機行業(yè)AIGC系列之二十三:算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸_第1頁
計算機行業(yè)AIGC系列之二十三:算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸_第2頁
計算機行業(yè)AIGC系列之二十三:算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸_第3頁
計算機行業(yè)AIGC系列之二十三:算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸_第4頁
計算機行業(yè)AIGC系列之二十三:算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

算力網(wǎng)絡再討論!從Dojo架構到算法的硬件延伸——AIGC系列之二十三證券分析師:李國盛A0230521080003ligs@楊海晏A0230518070003黃忠煌A0230519110001林起賢A0230519060002劉洋A0230513050006劉菁菁A0230522080003王珂A0230521120002戴文杰A0230522100006聯(lián)系人:李國盛ligs@《?與軟件和應用層面脫鉤。算力網(wǎng)絡主線新一階段的重要機會,應核心關注海外爆款應用或模型側(cè)重大更新(Tesla商400G全光網(wǎng)推進建設、本土模型訓練組網(wǎng)等加速,國內(nèi)市場的高速網(wǎng)絡需求AI服務器計算環(huán)節(jié)、華為產(chǎn)業(yè)鏈以及特斯拉與智能車產(chǎn)業(yè)鏈相關標的應重點關?1)帶寬與連接架構是決定算力性能的因素;2)芯片層面的高速chip-to-chip連接方案是高速網(wǎng)絡、光通信需求與當前AI算力算法領域其他巨頭不同,Tesla的AI方案根植于其能源/車/具身智能等垂直場景,具有獨特性和難復?市場對國內(nèi)算力網(wǎng)絡的需求有預期差。我們基的NVLink延伸至設備間互聯(lián);Dojo是2Dmesh到3D組網(wǎng),解決數(shù)據(jù)存取瓶頸;TPU則明顯從算法到硬件矩陣?GPU/DSA、智聯(lián)汽車、機器人領域一向的風險依然是研究競爭、產(chǎn)業(yè)鏈地位與管理。若難以相對準確地把握,可34.結論、相關標的與風險提示《?2020.08:馬斯克推特表示?2023.06:Dojo初步應用輸出;官宣23年7月正式推出exaPOD,特斯拉將會在2024年1月前擁有全球top5算力、2024年10月100exaFLOPs算力;2)芯片層面的高速chip-to-chip連接方1.1Dojo:第一性原理是數(shù)據(jù)存?。?.1Dojo:第一性原理是數(shù)據(jù)存?。?;);T液冷模組1.1Dojo:第一性原理是數(shù)據(jù)存取液冷模組核心算力單元18000Amps電源管理資料來源:Tesla,HotChips,《?DIP部署在6個Tile組成的陣列的邊緣部以太網(wǎng)交換機連接其他的DIP。資料來源:Tesla,HotChips,《?TeslaTransportProtocol(TTP,類似地可以對應于CXL、NVLink等TTP帶寬達到900GBps);?也就是說:每6個Tile對應20個DIP卡、每個DIP卡又對應了1個50GBps接口(也就是400Gb的網(wǎng)絡6個Tile、20個DIP等組成一個Tray單《資料來源:TeslaAIDay視頻,申萬宏源研究1.2網(wǎng)絡架構,視角從2D到3D 以及CPU為核心的Host組成1個機柜(最小的集群單元)。Tile通過搭配的DIP和TTPoE對外形成因此每機柜對外的400Gb連接數(shù)量為1)1個Dojo機柜:機柜側(cè)的400Gb模塊數(shù)量為40個,交換機側(cè)配對40個那么Dojo機柜側(cè)的400Gb模塊數(shù)量為10×40=400個,機柜到L1交換機之間的模塊數(shù)量是400×2=800?(但由于D1不能等效為GPU的核心,且華為昇騰/英偉達H100/谷歌TPU與特斯拉Dojo的設計思想迥異。這僅證明訓練芯片越來越多樣化/延展化/適配更多的AI場景,實際上對網(wǎng)絡的重視整體利好光模塊投入)3)另外Host系統(tǒng)預計也需要若干光模塊,通過DojoNetworkInterfaceCard和TTPoE協(xié)議進行Host(CPUDRAM)Host(CPUDRAM)Tile900GB/s50GB/s(400Gb/s)Host(CPUDRAM)Host(CPUDRAM)Cabinet101.2網(wǎng)絡架構,視角從2D到3DHost(CPUDRAM)Host(CPUDRAM)Tile900GB/s50GB/s(400Gb/s)Host(CPUDRAM)Host(CPUDRAM)Cabinet10Dojo的物理架構,實際上是均一化的算力單元組成的“Seaofnodes”Host(CPUDRAM)Host(CPUDRAM)Cabinet01Host(CPUDRAM)Host(CPUDRAM)Host(CPUDRAM)9TB/s9TB/sHost(CPUDRAM)Host(CPUDRAM)Host(CPUDRAM)資料來源:申萬宏源研究SwitchSwitch1.2網(wǎng)絡架構,視角從2D到3DSwitchSwitch外部交換機和Host系統(tǒng)輔助數(shù)據(jù)Ingest和Memory,必要時形成全局3D網(wǎng)絡HostSystem(CPUDRAM)資料來源:申萬宏源研究《資料來源:HotChips,申萬宏源研究注:橫軸單位是路徑相對長度,縱軸單位是資源利用水平。聚焦在同步(synchronization)、AllRed?Dojo系統(tǒng)的多數(shù)數(shù)據(jù)處理可以在Tile或數(shù)個Tiles的層級上完成,因此主要的數(shù)據(jù)傳輸通過相鄰D1 ?而在數(shù)據(jù)傳輸路徑太長時(例如橫跨兩個機柜則可以通過外部TTPoE平衡時延和帶寬。4.結論、相關標的與風險提示《與當前AI算力算法領域其他巨頭不同,Tesla的AI方案根植于其能源/車/具身智能等垂性和難復制性。理由如下:?Tesla場景的獨特性也是研發(fā)Dojo這款DSA的客觀條件(例如公司存量算力資源的較大比例分配于Autolabeling、Occupancynet?Tesla的云與數(shù)據(jù)中心場景并非業(yè)務重心,智能終端才是,因而復雜的大集群并非其算力方案最優(yōu)解;優(yōu)化與資源調(diào)配的靈活度。?不同處理器的設計架構一般“向后兼容”。英偉達的Hopper(當前H100,H800)仍然與費米架構有亦設計用于大型數(shù)據(jù)中心。布于2016年;特斯拉Dojo發(fā)布于2020年?!段覀冋J為,Dojo最鮮明的設計語言是:標準化、分布式、指向性(專用性)強。極簡設計,上文我們提到,Dojo的第一性?片內(nèi)無HBM;片內(nèi)SRAM大小類似L2?此外標準化的IC成本也更低,例如?而對比同等功耗/算力水平的方案(例如NvidiaA100微觀層面上:首相似之處是都追求更高的互聯(lián)帶寬/更優(yōu)的時延,提升矩陣乘的性能等,也是行業(yè)趨勢——網(wǎng)絡和算力性能要同步提升。2.1硬件架構,服從于算法設計2010年以來英偉達GPU主要架構可以推測行業(yè)趨勢:注重互聯(lián),對AI支持與時俱進(從CudaCore到TensorCore,增加對INT/BF16等持),注重帶寬和擴展性而非核心數(shù)量等 SM單元精簡(192到128)4TensorCores注2:Nvidia的SM:streamingmultiprocessor。SP(streamingprocessor)是其最基本的處理單元注3:NVLink是英偉達(NVIDIA)開發(fā)并推出的一種總線及其通信協(xié)議。其采用點對點結構、串列傳輸,用于中央處理器(CPU)與圖形處理器(GPU注4:SFU,特殊函數(shù)單元,Specialfuncti注6:SMX,可以理解為大號的SM。Kepler中每個SMX單元中的Register較Fermi的SM單元放大一倍注7:浮點精度對應不同AI訓練要點。如安培架構對稀疏矩陣支持利于CV分割、對象檢測、通信編碼等。訓練/推理任務常用FP16/BF16/TF32/INT8資料來源:Nvidia官方網(wǎng)站,NvidiaA100datasheet等,申萬宏源研究2.2Dojo的資源池“可編程”?Tesla的訓練數(shù)據(jù)通常是視頻,數(shù)據(jù)加載/視頻處理的難度高,不同模型對計算/存儲/帶寬的要?傳統(tǒng)的GPU服務器,最小算力單元的“顆粒度”太高,而“1機8卡”的主流結構使得算力資源的靈活調(diào)配存在局限性;而Dojo系統(tǒng)類似“俄羅斯方塊”,每個Die、Tile標準化程度高,且“無縫”高資料來源:Tesla,申萬宏源研究資料來源:申萬宏源研究《谷歌TPU通過脈動網(wǎng)絡增強矩陣乘法,解決算力和I/O的瓶頸;其TPU架構也是矩陣乘法優(yōu)化的體現(xiàn) SupportforEmbeddings,申萬宏源研究資料來源:申萬宏源研究2.3提升性能的思路眾多,大廠各有異同如果把模型訓練類比為一個龐大的流程工業(yè)企業(yè),其中有數(shù)以萬計的車間(處理單元)負責不同工間中有眾多工人(計算核心每個車間都有專屬的倉庫(SRAM)短暫地貯存了不同規(guī)模的原材料或半成品(參數(shù)、模型、數(shù)據(jù)等同時工廠層級也有倉庫(DRAM)和生產(chǎn)集控中心(Hostsystem)。第1階段第1階段第1階段第1階段第2階段第2階段第2階段第2階段第3階段第3階段第3階段第3階段……2.3提升性能的思路眾多,大廠各有異同由于Dojo系統(tǒng)中的每個芯片都可以和相鄰芯片進行交互,片上SRAM靈活且相鄰單元的片間帶寬與時延思路二(Dojo不同車間(D1)相互連通,集控中心(Host)通過幾個特定節(jié)點(DIP)將材料和生產(chǎn)工具分發(fā)至各個車間,車間1的半成品即時流轉(zhuǎn)到下一個車間2進行接下來工序的生產(chǎn)……不“流水線”式的處理流程,在特定規(guī)模的任務第1階段第1階段第2階段第3階段第2階段第3階段………………第1階段第2階段第3階段……第1階段第2階段第3階段……視頻數(shù)據(jù)輸入(包括加載、解碼、增強、矯正、GroundTruth等在內(nèi)的需求非常多樣訓練后控制輸出。Dojo的分布式流程更切合以上需求。資料來源:申萬宏源研究資料來源:HotChips,申萬宏源研究資料來源:Nvidia,申萬宏源研究《資料來源:Nvidia,申萬宏源研究此外,Dojo的CFP精度創(chuàng)新,體現(xiàn)了視覺為主的場景下對精度與速度的取舍。當前常見的AI數(shù)據(jù)精度例如FP8、FP16、延展性/并發(fā)性。?數(shù)據(jù)精度的要素包括正負號、尾數(shù)、指數(shù)(科學計數(shù)法)等,不同的尾數(shù)精準度和指數(shù)范圍組成了數(shù)據(jù)的不同精度,同時在矩陣運算時也占用了不同的算力資源。?不同的應用場景,對精度要求差異巨大。例如谷歌通過舍棄FP32部分尾數(shù)的方式(軟件方式)在TPUv3一代引入BFP16,兼顧了精確度和計算速度。CFP8和CFP16兩種可配置精度。在數(shù)據(jù)的處理,CFP16在很多情況下也可以替代FP32。通過引入一段可以調(diào)整的Bias(硬件方式Dojo 的性能得到極大釋放。244.結論、相關標的與風險提示3.1谷歌TPU:迭代至v4,ASIC3D組網(wǎng)適配AI需求谷歌自研TPU可追溯至2014年;據(jù)谷MachineLearningwithHardwareSupportf案。據(jù)歷代發(fā)布數(shù)據(jù):?TPUv1主要用于推理場景,單向架構,發(fā)布于2015年;ICILink做芯片互聯(lián)、分別496Gbps帶寬(類似NVLink發(fā)布于2017年;資料來源:Google,申萬宏源研究25(128個業(yè)務端口+8個測試維護端口因此上述48臺交換機可用于連接64個block(每個block有64個芯片)(128個業(yè)務端口+8個測試維護端口因此上述48臺交換機可用于連接64個block(每個block有64個芯片)中的48對光連接。?一個TPUv4板卡有4個芯片,一個TPUv4Pod由4096個芯片(1024個板卡)組成。?一個4x4x4的block有64個芯片(16個板卡,右下圖示每個block有6個面(正立方體的6個),相對面的link連接同一臺交換機,因此64個芯片的光連接有96/2=48對,對應48臺交換機。不同于過去的平面組網(wǎng),TPUv4組網(wǎng)方式是“3D立方體”組網(wǎng)不同于過去的平面組網(wǎng),TPUv4組網(wǎng)方式是“3D立方體”組網(wǎng)資料來源:Google,申萬宏源研究26資料來源:Google,申萬宏源研究273.1谷歌TPU:迭代至v4,ASIC3D組網(wǎng)適配AI需求作用,負責Chip-to-chip互聯(lián)以及板間互聯(lián)。?在TPUv4一代,每個芯片對應6路ICILinks,每一路448Gbps帶寬,其中2路用于板卡上4個芯片的互聯(lián),另外4路則用于對外的3D組網(wǎng)。柜,每個機柜有16組服務器(板卡對應16×4=64個間的互聯(lián)使用無源銅纜連接;柜、以及光纖與光模塊、液冷模塊,共同組成了 與網(wǎng)絡同行_________ 與網(wǎng)絡同行_________MEMS陣列結合光環(huán)路器、波分復用光模塊實谷歌OCS方案通過MEMS陣列調(diào)整光路,靈活配置AI算力資料來源:Google,申萬宏源研究28谷歌OCS方案仍然依賴光模塊產(chǎn)生光信號、借助光纖進行信 資料來源:Google,申萬宏源研究成本、功耗、頻譜效率、可擴展性等因素平衡,通信環(huán)節(jié)需求進一步提升。?與PSM解決方案相比,WDM光學技術最大限度地提高了OCS端口的效率和使用率,單模是OCS技術的兼容性和擴展性所需要的。?此外,光環(huán)路器(circulators)被耦合到光模塊上,以實現(xiàn)單模雙向鏈路傳輸,從而為每根光纖和器和光纖組件在很大程度上與數(shù)據(jù)速率無關,可以用于多代網(wǎng)絡和不同速度的互連。而波分復用的單模光模塊正在從800G向1.6T演進。谷歌單模WDM光模塊迭代路徑,當前恰好是800G節(jié)點,預計很快導入1.6T迭代至1.6T以上,光通信領域技谷歌單模WDM光模塊迭代路徑,當前恰好是800G節(jié)點,預計很快導入1.6T白皮書,使用單模技術來實現(xiàn)800G-SR8場景(60~100m)互連開始具資料來源:Google,申萬宏源研究3020222020圖像生成20222020圖像生成?星河AI網(wǎng)絡方案的亮點體現(xiàn)在(華為公開披露):絡實現(xiàn)2250節(jié)點(18000張卡)超大規(guī)模);AI網(wǎng)絡需適應大模型的多模態(tài)趨勢多模態(tài)階段2023大模型階段20202021多模態(tài)階段2023大模型階段2020文字生成資料來源:華為星河AI網(wǎng)絡白皮書,申萬宏源研究但并不意味著網(wǎng)絡需求萎縮;原因是高性價比的RoCE本身也是RMDA網(wǎng)絡(內(nèi)存遠程直接訪問,也是InfiniBand的基礎更利于主流交換機廠商的放量。無需操作系統(tǒng)內(nèi)核的介入(相比于傳統(tǒng)TCP/IP尤其的連接需求。英偉達解決集群性能瓶頸的方式是引入InfiniBand網(wǎng)絡,并將C2C場景下應用的NVLink延伸至設備間互聯(lián)。而未來“普適化”的RoCE網(wǎng)絡也是資料來源:華為,申萬宏源研究?例如,據(jù)紫光股份公眾號:“最新發(fā)布的析性能3倍提升……網(wǎng)絡聯(lián)接部分,同時支持三400GRoCE解決方案經(jīng)實際部署和第三方持高效率的AIGC計算的連接?!边\營商400G全光網(wǎng)推進建設、本土模型訓練組網(wǎng)334.結論、相關標的與風險提示《結論以及國內(nèi)新一輪的模型與應用開發(fā)。我們判斷,隨著我們認為,硬件架構服從于算法設計。與當前AI算力算法領域其他巨頭不同(二)市場對國內(nèi)算力網(wǎng)絡的需求有預期差。網(wǎng),解決數(shù)據(jù)存取瓶頸;TPU則明顯從算法到硬件矩陣化。結合本土產(chǎn)業(yè)實際,未來“普適化”的RoCE等網(wǎng)絡以及400G以上速率的光通信是重要方向。資料來源:Tesla,HotChips,申萬宏《算力網(wǎng)絡與流量環(huán)節(jié):中際旭創(chuàng)、新易盛、天孚通信、華工科技、中興通訊、紫光股份、銳捷網(wǎng)絡、源杰科技、盛科通信等。AI服務器計算環(huán)節(jié):關注浪潮信息、勝宏科技華為產(chǎn)業(yè)鏈:關注軟通動力(大模型+OS+數(shù)據(jù)庫)、華大九天(tmt,EDA)、長電科技(電子,封測)、潤達醫(yī)療(醫(yī)療AI)、賽意信息(MetaERP)、中軟國際、廣電運通、神州數(shù)碼等;特斯拉與智能車產(chǎn)業(yè)鏈:關注德賽西威、立訊精密(電子)、雙環(huán)傳動(機械&汽車)、精鍛科技、愛柯迪、岱美股份等。GPU/DSA、智聯(lián)汽車、機器人領域一向的風險依然是研究競爭、產(chǎn)業(yè)鏈地位與管理。若難以相對準確地相關公司估值表預測凈利潤預測凈利潤證券簡稱證券簡稱中國電信寶信軟件紫光股份億聯(lián)網(wǎng)絡星網(wǎng)銳捷華工科技中際旭創(chuàng)新易盛銳捷網(wǎng)絡中國聯(lián)通收盤價(元)收盤價(元)000938.SZ300628.SZ002396.SZ000988.SZ300308.SZ300502.SZ301165.SZ479.74資料來源:Wind,申萬宏源研究注:紫光股份、星網(wǎng)銳捷、中際旭創(chuàng)、新易盛、銳捷網(wǎng)絡、中國聯(lián)通凈利潤取Wind一致信息披露本報告署名分析師具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注冊為證券分析師,以勤勉的職業(yè)態(tài)度、專業(yè)審慎的研究方法,使用合法合規(guī)的信息,獨立、客觀地出具本報告,并對本報告的內(nèi)容和觀點負責。本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。本公司隸屬于申萬宏源證券有限公司。本公司經(jīng)中國證券監(jiān)督管理委員會核準,取得證券投資咨詢業(yè)務許可。本公司關聯(lián)機構在法律許可情況下可能持有或交易本報告提到的投資標的,還可能為或爭取為這些標的提供投資銀行服務。本公司在知曉范圍內(nèi)依法合規(guī)地履行披露義務??蛻艨赏ㄟ^compliance@索取有關披露資料或登錄信息披露欄目查詢從業(yè)人員資質(zhì)情況、陳idan證券的投資評級:以報告日后的6個月內(nèi),證券相對于市場基準指數(shù)的漲跌幅為標準,定義如下:買入(Buy)增持(Outperform)中性(Neutral)減持(Underperform)行業(yè)的投資評級::相對強于市場表現(xiàn)20%以上;:相對強于市場表現(xiàn)520%;:相對市場表現(xiàn)在-5%~+5%之間波動;:相對弱于市場表現(xiàn)5%以下。以報告日后的6個月內(nèi),行業(yè)相對于市場基準指數(shù)的漲跌幅為標準,定義如下:看好(Overweight)中性(Neutral)看淡(Underweight)本報告采用的基準指數(shù)證券的投資評級::行業(yè)超越整體市場表現(xiàn);:行業(yè)與整體市場表現(xiàn)基本持平;:行業(yè)弱于整體市場表現(xiàn)。:滬深300指數(shù)以報告日后的6個月內(nèi),證券相對于市場基準指數(shù)的漲跌幅為標準,定義如下:買入(BUY):增持(Outperform)持有(Hold)減持(Underperform)賣出(SELL)行業(yè)的投資評級::股價預計將上漲20%以上;:股價預計將上漲10-20%;:股價變動幅度預計在-10%和+10%之間;:股價預計將下跌10-20%;:股價預計將下跌20%以上。以報告日后的6個月內(nèi),行業(yè)相對于市場基準指數(shù)的漲跌幅為標準,定義如下:看好(Overweight)中性(Neutral)看淡(Underweight)本報告采用的基準指數(shù):行業(yè)超越整體市場表現(xiàn);:行業(yè)與整體市場表現(xiàn)基本持平;:行業(yè)弱于整體市場表現(xiàn)。:恒生中國企業(yè)指數(shù)(HSCEI)我們在此提醒您,不同證券研究機構采用不同的評級術語及評級標準。我們采用的是相對評級體系,表示投資的相對比重建議;投資者買入或者賣出證券的決定取決于個人的實際情況,比如當前的持倉結構以及其他需要考慮的因素。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,不應僅僅依靠投資評級來推斷結論。申銀萬國使用自己的行業(yè)分類體系,如果您對我們的行業(yè)分類有興趣,可以向我們的銷售員索取。本報告由上海申銀萬國證券研究所有限公司(隸屬于申萬宏源證券有限公司,以下簡稱“本公司”)在中華人民共和國內(nèi)地(香港、澳門、臺灣除外)發(fā)布,僅供本公司的客戶(包括合格的境外機構投資者等合法合規(guī)的客戶)使用。本公司不會因接收人收到本報告而視其為客戶。有關本報告的短信提示、電話推薦等只是研究觀點的簡要溝通,需以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論