![電子行業(yè)深度研究報告:Scaling+law依然有效自研AI芯片后勁十足_第1頁](http://file4.renrendoc.com/view7/M02/35/29/wKhkGWb6AL6AagGMAALyvfocylw416.jpg)
![電子行業(yè)深度研究報告:Scaling+law依然有效自研AI芯片后勁十足_第2頁](http://file4.renrendoc.com/view7/M02/35/29/wKhkGWb6AL6AagGMAALyvfocylw4162.jpg)
![電子行業(yè)深度研究報告:Scaling+law依然有效自研AI芯片后勁十足_第3頁](http://file4.renrendoc.com/view7/M02/35/29/wKhkGWb6AL6AagGMAALyvfocylw4163.jpg)
![電子行業(yè)深度研究報告:Scaling+law依然有效自研AI芯片后勁十足_第4頁](http://file4.renrendoc.com/view7/M02/35/29/wKhkGWb6AL6AagGMAALyvfocylw4164.jpg)
![電子行業(yè)深度研究報告:Scaling+law依然有效自研AI芯片后勁十足_第5頁](http://file4.renrendoc.com/view7/M02/35/29/wKhkGWb6AL6AagGMAALyvfocylw4165.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
證券研究報告電子2024年09月28日Scalinglaw依然有效,自研AI芯片后勁十足ooScalinglaw依然有效,AI自研應需而生。ChatGPT掀起新一輪AI產(chǎn)業(yè)浪潮,預訓練測Scalinglaw仍然有效,推理側(cè)Scalinglaw剛嶄露頭角,AI算力有望維持高增長。全球科技龍頭紛紛想抓住此輪AI浪潮的發(fā)展機遇,資本開支快速增長,但AI投入尚未得到明顯回報,置身于是否加碼AI投資的兩難境地,自研AI芯片具備降本增效、提高自身競爭力等優(yōu)勢,AI自研應需而生。o英偉達深耕AI產(chǎn)業(yè)十多載,在GPU/網(wǎng)絡/軟件三方面筑建深厚壁壘。英偉達抓住以深度學習、大模型為核心技術的AI技術變革機遇,針對AI模型的大規(guī)模并行計算需求,在GPU、高速互連領域深度布局。其中,單GPU節(jié)點算力憑借著在結構、核心數(shù)等方面進行能力提升,過往8年內(nèi)算力增長超千倍;在高速互連領域,英偉達在片間、ScaleUp和ScaleOut網(wǎng)絡域均提出相應解決方案。這些努力最終促使英偉達在AI系統(tǒng)領域構建了深厚的護城河。若想取代甚至超越英偉達需要在AI加速器、高速互連等多方面取得突破。oAI產(chǎn)業(yè)群雄并起,自研AI有望提速。面對英偉達在AI算力領域的領導地位,以北美云廠商為首的科技企業(yè),在算力芯片、高速互連等領域進行前瞻布局。其中,在AI自研芯片領域,亞馬遜、微軟、Meta等超大規(guī)模AI客戶聯(lián)合Broadcom、Marvell等芯片廠商,加快AI芯片推出速度;在ScaleUp網(wǎng)絡,以AMD、博通為首的科技玩家,構建UALink高速互連開放標準,提供了復制NVlink高速互連的路徑,聚合全產(chǎn)業(yè)資源,加速追趕NVlink。在ScaleOut網(wǎng)絡,以太網(wǎng)憑借著生態(tài)優(yōu)勢、齊備的產(chǎn)業(yè)鏈和較高的性價比,得到了亞馬遜、Meta、字節(jié)跳動等科技巨頭們的青睞,超以太網(wǎng)聯(lián)盟和英偉達Spectrum-X平臺兩大陣營均在該領域發(fā)力,推動以太網(wǎng)AI網(wǎng)絡快速發(fā)展。未來基于以太網(wǎng)的AI網(wǎng)絡有望成為主流解決方案。隨著非英偉達陣營在AI加速器、高速互連等領域不斷取得突破,AI自研方案有望加速落地。o投資建議:AI算力需求推動AI服務器、高速交換機用PCB需求維持高增長,相關公司有望深度受益。具體如下1)滬電股份:公司深耕北美客戶,AI業(yè)務加速放量,800G交換機有望與AI服務器共振向上。(2)生益電子:公司深耕數(shù)通板行業(yè)十多載,成功開發(fā)了包括亞馬遜在內(nèi)的多家服務器客戶,AI配套的主板及加速卡項目均已經(jīng)進入量產(chǎn)階段;800G交換機產(chǎn)品已經(jīng)小批量交付,有望開始放量。(3)勝宏科技:公司前瞻布局HDI領域,AI多業(yè)務條線進展順利,有望深度受益于AI服務器用HDI需求提升。證券分析師:證券分析師:熊翊宇證券分析師:耿琛證券分析師:岳陽聯(lián)系人:董邦宜行業(yè)基本數(shù)據(jù)行業(yè)基本數(shù)據(jù)相對指數(shù)表現(xiàn)5.5%5.5%-0.4%2023-09-27~2024-09-2711%-1%2023-09-27~2024-09-2711%-1%o風險提示:o風險提示:AI產(chǎn)業(yè)發(fā)展不及預期、行業(yè)競爭格局加劇、產(chǎn)品導入不及預期、新技術迭代風險、原材料價格大幅上漲。-12%23/0923/1224/0224/0524/0724/09-24%-24%——電子——滬深300重點公司盈利預測、估值及投資評級重點公司盈利預測、估值及投資評級《消費電子行業(yè)重大事項點評:國內(nèi)外大廠加速資料來源:Wind,華創(chuàng)證券預測注:股價為2024年9月27資料來源:Wind,華創(chuàng)證券預測注:股價為2024年9月27日收盤價《消費電子行業(yè)深度研究報告:潛望式鏡頭引領證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號AI技術底層原理解構,揭開AI算力基礎設施面紗。本文梳理了AI技術的演進趨勢,揭示了AI算力本質(zhì)上是一種大規(guī)模并行計算,并通過對英偉達在GPU/高速互連領域的布局進行解構,指出了AI算力硬件產(chǎn)品的升級迭代的方向。AI產(chǎn)業(yè)群雄并起,AI自研有望提速。本文指出了頭部科技企業(yè)面臨是否加碼AI基礎設施的兩難境遇,AI自研應需而生。通過AI頭部玩家在AI加速器、高速互連領域布局的分析,與前文AI算力需求、英偉達AI產(chǎn)業(yè)布局遙相呼應,可以看出AI自研逐步走上正軌,有望迎來快速發(fā)展期。AI產(chǎn)業(yè)快速發(fā)展,有望推動數(shù)通板行業(yè)迎來量價齊升。本文從AI技術底層原理出發(fā),對AI產(chǎn)業(yè)頭部玩家英偉達進行解構,分析非英偉達陣營在AI產(chǎn)業(yè)的進展,結合當前科技企業(yè)的境遇,推斷出AI自研芯片有望迎來快速增長黃金期,數(shù)通板行業(yè)有望迎來量價齊升,相關PCB企業(yè)有望深度受益。證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號3 7 7(二)AI大模型掀起新一輪AI技術變 9 (一)GPU算力提升之路:微結構提升或有望成為 (二)高速互連:構建全系列高速互連系統(tǒng),打 (三)以太網(wǎng):以太網(wǎng)優(yōu)勢日益凸顯,加速廣泛部署于AI (一)滬電股份:AI業(yè)務加速放量,800G交換機有望與AI服務器共振向上 (二)生益電子:AI服務器大批量交付,800G交換 (三)勝宏科技:前瞻布局HDI領域,深度受益于AI服務器用HDI需求提升 證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號 7 7 8 8 9圖表6芯片架構設計三大目標:帶寬(Bandwidth)、延時(Latency)和吞吐量(Throughput) 9 證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號5 證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號6 證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號提出了深度神經(jīng)網(wǎng)絡,掀起了基于深度學習的新一輪AI浪潮,奠定了大模型發(fā)展的基礎。深度學習興起的背景是計算能力的提高和大數(shù)據(jù)時代的到臨,能夠讓機器自動地從原始數(shù)據(jù)中學習。從原始數(shù)據(jù)中提取高層次、抽象的特征是非常困難的。深度學習另辟蹊徑,讓計算機通過比較簡單概念來構建復雜的概念,能夠讓計算機從經(jīng)驗和數(shù)據(jù)中得到提高的技術,在計算機視覺、自然語言處理等領域取得了一定的成果。深度學習早期主要用于解決機器學習中的表示學習的問題,但是由于其強大的能力,逐漸被用于解決一些通用人工智能的問題,如推理、決策等,當前主流的大模型技術本質(zhì)上是由深度學習的延伸發(fā)展而來的。資料來源:IanGoodfellowd等《DeepLearning》資料來源:IanGoodfellowd等《DeepLearning》深度學習訓練、推理過程需要大量并行運算。深度學習廣泛應用的模型要是因為神經(jīng)網(wǎng)絡能夠使用反向誤差傳播算法,可以很好地解決貢獻度問題。深度學習狹義上就是很多層神經(jīng)網(wǎng)絡。深度神經(jīng)網(wǎng)絡通過訓練以后用于推理任務,其中訓練過程主要是讓模型通過輸入的數(shù)據(jù)不斷學習,即調(diào)整模型的參數(shù),包含前向傳播和反向傳播2個過程;推理過程主要是指訓練好的模型對輸入數(shù)據(jù)進行預測,僅包含前向傳播過程。證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號8資料來源:魯蔚征&秦續(xù)業(yè)《Python數(shù)據(jù)科學加速》資料來源:魯蔚征&秦續(xù)業(yè)《Python數(shù)據(jù)科學加速》GPU采用高度并行架構,適用于深度學習大規(guī)模并應用程序運行中各類計算任務,需要很強的通用性;GPU可以更高效地處理務。從架構上看,CPU與GPU主要存在幾大區(qū)別:(1)并行處理能力:CPU擁有較少的計算單元(ALU但是具有復雜的控制單元(Control擅長邏輯控制和串行計算。GPU擁有大量的計算單元(ALU)和線程(Thread大量ALU可以實現(xiàn)大的計算吞吐量,超配線程可以同時處理(2)內(nèi)存架構:CPU擁有較大的Cache,可以緩存大量后續(xù)可能需要訪問的數(shù)據(jù),多的線程服務的,如果有很多線程需要訪問一個相同的數(shù)據(jù),緩存會合并訪問特性,其功耗通常相對較高,需要更好的散熱系統(tǒng)來保證穩(wěn)定運證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號同的目標。GPU的設計目標是最大化吞吐量,相比單個任務執(zhí)行的速度,其更務。CPU以序列化地方式處理任務,其目標任務之間快速切換的能力。起新一輪AI浪潮,算法、算力和數(shù)據(jù)三大要素協(xié)同迭代,推動AI模型能力不斷提在過去十多年時間里,受限于摩爾定律,CPU/GPU/TPU等處理器的算力增長速度遠不及AI算力需求增長速度。面對迅速增長的AI算力需求,大規(guī)模分布式計算能夠的任務分解到單個處理器上,用以解決單芯片性能不足的問題。未來隨著大模型的廣泛證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:麥絡等《機器學習系統(tǒng):設計與實現(xiàn)》資料來源:麥洛等《機器學習系統(tǒng):設計和實現(xiàn)》(1)數(shù)據(jù)并行:數(shù)據(jù)并行可以解決單節(jié)點算力不足的問題。該并行方式使用多個并行設備來加速訓練,每個設備上部署相同的模型,將訓練數(shù)據(jù)劃分到不同設備上。各設備利用本地訓練數(shù)據(jù)進行訓練,完成前向傳播和反向傳播。在反向傳播過程中,不同設備上的模型會生成局部梯度,需要對不同設備上相對應的局部梯度進行聚合,計算平均梯度,然后利用平均梯度更新模型參數(shù),從而確保各設備上模型的參數(shù)是一致的。該聚合過程往往由集合通信AllReduce操作完成,通信的數(shù)據(jù)量規(guī)模和模型參數(shù)規(guī)模成正比,(2)流水線并行:深度神經(jīng)網(wǎng)絡由多層神經(jīng)網(wǎng)絡組成,大模型廣泛采用模型架構也是如此。流水線并行是將多層神經(jīng)網(wǎng)絡切分成多個階段,再把不同階段映射到不同設備上,使得不同設備去計算神經(jīng)網(wǎng)絡的不同部分。正向傳播時,每個階段的計算節(jié)點完成計算之后將結果傳送到下一階段的計算節(jié)點,同時,下一階段的計算節(jié)點接收上一階段計算節(jié)點的結果并開始計算;反向傳播時,當最后一個計算節(jié)點的梯度算完以后,將結果發(fā)送給上一階段計算節(jié)點,同時,上一階段計算節(jié)點接收最后一個階段計證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號算節(jié)點梯度的結果,并進行本階段的梯度計算,然后繼續(xù)往前傳播。該并行策略讓每個設備只需計算模型的一部分,可以解決單計算節(jié)點內(nèi)存不足的問題,不過其需要不同計算節(jié)點之間進行數(shù)據(jù)傳輸,傳輸?shù)膬?nèi)容包括正向計算的激活值和反向計算的梯度值。這種通信在一個迭代里至少會發(fā)生幾十次,但通信量一般不大,對網(wǎng)絡的性能要求相對較(3)張量并行:該并行方式是聯(lián)合多個計算節(jié)點同時做一個張量運算,如:矩陣乘法。單個計算節(jié)點對局部的張量進行計算,然后對多個計算節(jié)點做全局的張量計算結果的大小不僅和模型參數(shù)規(guī)模有關,還和訓練使用的數(shù)據(jù)b常都非常大,并且在一次迭代里會發(fā)生很多AllReduce。因此,張量并行對網(wǎng)絡帶寬的資料來源:百度智能云開發(fā)者中心考慮三大并行策略的特點,在訓練大模型時通?;旌喜捎萌N并行策略。首先,單節(jié)點寬通信能力。其次,當模型過大時,超出了單節(jié)點的內(nèi)存空間,因此在多節(jié)點之間使用流水線并行策略。最后,為了進一步加快模型訓練速度資料來源:WenxueLi等《UnderstandingCommunicationcharacteristicsofdistributedtraining》證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:百度智能云開發(fā)者中心證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號臺服務器通常包含多個加速器。為了方便管理,多臺服務器組成一個機柜,并通過架頂交換機進行互連。在架頂交換機滿載的情況下,可以通過在架頂交換機間增加骨干交換機(SpineSwitch)進一步接入新的機柜。最終,完成對成千上萬個加速器互連,利用上文所述的三種并行策略:張量并行、流水線并行和數(shù)據(jù)并行來提供大規(guī)模分布式AI算力,容納更大的模型和數(shù)據(jù),加快訓練和推理速度。在AI大模型訓練過程中,前向計算、反向計算和通信占據(jù)了主要時間,因此為了加快訓練速度需要在算力、運力上同步進行提升。資料來源:麥洛等《機器學習系統(tǒng):設計和實現(xiàn)》資料來源:段曉東等《面向智算中心的新型以太網(wǎng)需求與關鍵技術》構建了兩種類型的網(wǎng)絡:一種是NVLink總線域網(wǎng)絡,用于算力Sca是InfiniBand和Ethernet網(wǎng)絡,用于算力ScaleOut擴展,其中基于InfiniBand的英偉達開發(fā)了以CUDA為核心的軟件架構,與其硬件進行配套使用,從而更好地發(fā)揮硬件的性能。英偉達憑借其在系統(tǒng)和網(wǎng)絡、硬件和軟件的全方位布局,使其在AI生態(tài)證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號進和調(diào)整,引入了新的設計特性如:更好的調(diào)度和管理機制、更高效內(nèi)存訪問以及更多并行計算,理論上CUDACore越多,算力也就越強,因此在隨后的Kepler、Maxwell架方向發(fā)展;2017年,推出Volta架構,新引入了TensorCore模塊,該模塊可實現(xiàn)混合精度計算,動態(tài)調(diào)整算力,從而在保持準確性和提供更強安全性的同時提高吞吐量。在隨Transformer引擎,可以顯著加快AI算力,用于應對日益增加的模型參數(shù)。H100的NeMo框架創(chuàng)新相結合,可以加速大語言模型和專家混合模型的推理證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號個SM,SM支持ECCNVLink第一NVLink2.0,NVLink4.0,資料來源:Github,華創(chuàng)證券資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)通過對英偉達歷代GPU發(fā)展歷程分析,我們可以知道其性能主要提升來自以下幾個方能提升2倍4)H100的時鐘頻率將性能提升1.3倍。究其背后的原因,我們認為是隨證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號著深度學習成為AI的主流技術,Tran的基礎范式日漸趨于穩(wěn)定,從而可以在硬件層面上針對廣泛使用的算法進行微架構設推動算力不斷提升。未來隨著AI技術逐步趨于成熟,相關架構可能會趨于統(tǒng)一,屆時硬件層面上針對算法定制化設計或許是AI芯片算力提升的資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)單芯片算力和內(nèi)存有限,無法承載大模型,通過多種互連技術將多顆算力芯片互連在一業(yè)務網(wǎng)絡互連:承載的是諸如需要計算的輸入數(shù)據(jù),輸出結果,以及在各類存儲系統(tǒng)中證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號的模型參數(shù)、checkpoint等。需要進行極大范圍的互連,并且和云上的存儲、業(yè)務接口行(MoE)流量為主,有在網(wǎng)計算的需求(可以對Allreduce在Switch節(jié)點上進行加速)。在一定規(guī)模內(nèi)互連,由于其對于性能的超高要求,采用專門設計的協(xié)議,比如NVIDIA的NVlink及NVSwitch技術,另外一個近期成立的協(xié)議Microsoft共同發(fā)起,目前在行業(yè)內(nèi)得到了資料來源:半導體行業(yè)觀察公眾號資料來源:半導體行業(yè)觀察公眾號,華創(chuàng)證券證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號作。然而,傳統(tǒng)的PCIe總線由于帶寬限制和延需求。2018年,英偉達推出了NVLink用于解決該資料來源:遠川科技評論,轉(zhuǎn)引自與非網(wǎng)資料來源:遠川科技評論,轉(zhuǎn)引自與非網(wǎng)NVLinkbandwidthMaximumNumberof46VoltaHopper資料來源:英偉達官網(wǎng),華創(chuàng)證券(2)NVSwitch芯片:提高通信速度第一代NVSwitch與英偉達V100GPU和第二代NVLink一起推出,可以連接多個快計算過程。證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號圖表26H200八卡服務器配置4顆NVSwitch芯片資料來源:英偉達官網(wǎng)資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hotchips官網(wǎng)NumberofGPUswithdirectconnectionwithinaNVLinkdomainUpto8Upto8Upto8NVSwitchGPU-TO-GPUbandwidthVoltaHopper資料來源:英偉達官網(wǎng),華創(chuàng)證券以H200八卡服務器為例,如果不使用NVSwtich芯片,成本會降低一些,但是每個服務器中的每個GPU都能以900GB/s的速度與其他任何GPU同時進行通信。NVSwitch是無阻塞的,使得GPU之間通信的峰值速率與通信的GPU數(shù)量無關。資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號248資料來源:英偉達官網(wǎng),華創(chuàng)證券新,從而減少網(wǎng)絡數(shù)據(jù)包并提高計算性能。資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hot資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hot證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號架內(nèi)和多個機架間連接成NVLink網(wǎng)絡,可以解決GPU之間的高速通信帶寬過程中更改地址。資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hotchip資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自HotInfiniBand網(wǎng)絡和NVLink網(wǎng)絡是在高性能計算和數(shù)據(jù)中心應用中使用的兩種不同的網(wǎng)架構和設計:InfiniBand網(wǎng)絡是一種采用多通道、高速串行連接的開放標準網(wǎng)絡技術,應用場景:InfiniBand網(wǎng)絡廣泛應用于高性能計算集群和大規(guī)模數(shù)據(jù)中心,主要用于證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號帶寬和延遲:InfiniBand網(wǎng)絡提供高帶寬和低延遲的通信,提供更高的吞吐量和更短的NVLink網(wǎng)絡在訓練大型語言模型或具有大型嵌入表的推薦系統(tǒng)時也能提供顯著的性能資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hotc資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hotc證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:英偉達《THENVLINK-NETWORKSWITCH:NVIDIA’SSWITCHCHIPFORHIGHCOMMUNICATION-BANDWIDTHSUPERPODS》,轉(zhuǎn)引自Hotc(4)NVLinkC2C:CPU與GPU互連,大幅增加了GPU可用內(nèi)存容量2022年,推出NVIDIA?NVLink?-C2C,這是一種超快速的芯片到芯片、裸片到裸片致的互連,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。借助先進的封裝技術,NVIDIA資料來源:英偉達官網(wǎng)內(nèi)存資源,包括LPDDR5X和HBM3。推理大型語言模型(LL長的需求,內(nèi)存需求也隨之增加。為了解決內(nèi)存需求,可以擴展到多個GPU或使用能會受到PCIe的瓶頸限制。NVIDIA的NVLink-C2C為HopperGPU提供了對證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號LPDDR5X內(nèi)存的高帶寬訪問,這顯著減少了張量卸載執(zhí)行時間,使得LLM的推理能夠以GPU的吞吐量進行。根據(jù)性能模擬結果,當批量大小為1時,配備HBM3的H100PCIeGPU。隨著批量大小的增加,推理所需的內(nèi)存量也在增加。在批量大小時,基于PCIe的推理解決方案性能下降,因為PCIe成為主要瓶頸,而GH200的的吞吐量。資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)資料來源:英偉達,轉(zhuǎn)引自hardwarezone證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:英偉達官網(wǎng)資料來源:英偉達官網(wǎng)TB的快速內(nèi)存,應用程序可以一致地訪問統(tǒng)一內(nèi)存空間。這簡化了編程并滿足萬億參數(shù)LLM、多模態(tài)模型等大容量內(nèi)存的需求。速內(nèi)存為240TB,能夠?qū)崿F(xiàn)更高性能的證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:英偉達,轉(zhuǎn)引自hardwarezone資料來源:英偉達,轉(zhuǎn)引自hardwarezone量與傳統(tǒng)數(shù)據(jù)中心流量迥然不同,其具有超大流量、超低時延、零容忍丟包和嚴格時間同步等特點。傳統(tǒng)的傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議需要靠內(nèi)核發(fā)送消息進行網(wǎng)絡通信,在數(shù)據(jù)傳輸過程中存在較高的數(shù)據(jù)移動和復制開銷,降低了數(shù)據(jù)傳輸效率。與之形成對比的RDMA協(xié)議能夠通過網(wǎng)絡接口訪問內(nèi)存數(shù)據(jù),不經(jīng)過內(nèi)核,具有高吞吐、低延遲、資料來源:英偉達《NVIDIASpectrum-XNetworkPlatformArchitecture》資料來源:英偉達官網(wǎng)資料來源:華為官網(wǎng)資料來源:英偉達官網(wǎng)證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號RDMA主要包含3種協(xié)議:InfiniIB:專為高性能計算從鏈路層到傳輸層定制了全新的架構,具備高帶寬、低延遲和無損以在數(shù)據(jù)中心中使用。RoCEv2是Ro制。RoCE在性能上較IB有所降低,但是其性價比更高,在一部署。不過,RoCEv2標準是UDP協(xié)議,雖然其效率比較高,但不具備類似TCP協(xié)議的重傳機制等來保障可靠傳輸,一旦出現(xiàn)丟包,必須依靠上層應用發(fā)現(xiàn)后再做重傳,這性,但是大量TCP連接會耗費很多的內(nèi)資料來源:唐宏等《生成式大模型承載網(wǎng)絡架構與關鍵技術探索》總之,IB可以提供卓越的性能、低延遲高中低好差資料來源:華為官網(wǎng),華創(chuàng)證券證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號英偉達一家獨大,產(chǎn)業(yè)巨頭并起而抗之。AI本質(zhì)上是一個并行計算的問題,提升單個節(jié)點的算力及構建高速的互連系統(tǒng)是尤為關鍵。英偉達由于其早期布局GPU,及時地抓住了此輪以深度學習為技術代表的AI技術發(fā)展浪潮,其單個GP資料來源:FabricatedKnowledge中獲取更大的利益,促使英偉達AI算力卡呈現(xiàn)供不應求的局面。面對緊缺的AI算品供應、高昂的資本開支以及尚未見頂?shù)腁I算力需求,云廠商未雨綢繆、紛紛想把握住AI算力的主動權,進而在AI浪潮中取得更大的優(yōu)勢。以谷歌、博通、亞馬遜、AMD、微軟、Meta、Marvell等為首的北美科技巨頭企業(yè),試圖在AI芯片、高速互連領域逐個對英偉達體系進行突破,非英偉達體系的AI算力產(chǎn)業(yè)正在崛起,未來有望取得一定的市場份額。型的性能遵守Scalinglaw法則即證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號AmazonMicrosoftGoogleMetaYoY資料來源:Bloomberg,華創(chuàng)證券造自己的核心競爭力,從而提高其在AI領域的話語權和影響力。在規(guī)模及成本等多種因素考量下,北美云廠商Google、AWS、Microsoft、Meta等有逐年擴大采用自研高中高高高低資料來源:Trendforce,華創(chuàng)證券November,2023—————證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號———————————— AndesTechnology資料來源:Trendforce,華創(chuàng)證券資料來源:Broadcom《EnablingAIInfrastructure》業(yè)績說明會上表示,F(xiàn)Y2024Q3其定制AI加速器業(yè)務同比FY2025AI業(yè)務將保持強勁增長;長期來看,公司認為其超大規(guī)??蛻粲懈嗟腁I算上表示,AI定制芯片進展順利,2顆芯片已經(jīng)進入量產(chǎn);鑒于公司AI業(yè)務在FY2025H1增長強勁,F(xiàn)Y2025H2有望加速增長,預計FY2025年AI業(yè)務收入將超過公證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:Marvell《AcceleratedInfrastructurefortheAIEra》云廠商亞馬遜、Meta等持續(xù)擴大自研ASIC,中國本土企業(yè)阿里巴極布局自主ASIC方案,促使ASIC服務器占整體AI服務器的占比在2024年預計提升100%80%60%40%20%0%120%100%80%60%40%20%0%23.6%23.6%24.1%24.1%25.3%25.3%3.1% 5.7%3.1%3.0%3.0%7.3%2.9%2.9%8.1%67.6%67.6%65.5%65.5%63.6%63.6%202220232024FNvidiaAMD(含Xilinx)Intel(含Altela)Others資料來源:Trendforce公眾號,華創(chuàng)證券科、Google、惠普、英特爾、Meta和微軟宣技術UALink(UltraAcceleratorLink建立AI加速器間高速低延遲的開放以打破英偉達NVlink的壟斷。UALink將通過以下方式提證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號l開放性和兼容性:UALink聯(lián)盟旨在創(chuàng)建一個開放的行業(yè)標準,允許多家公司為整資料來源:nextplatform官網(wǎng)對英偉達的依賴,已經(jīng)陸續(xù)推出AI自研芯片。UALink提供了一條復制NVLink和NVSwitch功能的途徑,可以促進彼此之間芯片的進度,逐步降低對英偉達的依賴程度。營初步形成。以太網(wǎng)是IP網(wǎng)絡最成熟和主流的技術,被廣泛應用于園區(qū)網(wǎng)絡、數(shù)據(jù)中心和云計算環(huán)境以及廣域網(wǎng)等場景,具備開放的生態(tài)系統(tǒng),使用標準的以太網(wǎng)設備、線纜和接口卡等,具備性價比高,后期維護成本低等優(yōu)勢,然而其在延時、帶寬等方面遜求,并且能夠支持更大的域,頭部玩家正在使用以太網(wǎng)來構建AI基礎設施,如:AWS將以太網(wǎng)用于其生成式AI基礎設施,為配證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:Broadcom《EnablingAIInfrastructure》資料來源:Broadcom《EnablingAIInfrastructure》新一代AI以太網(wǎng)技術不僅保留了成本優(yōu)勢,還具備靈活性和開放性,并利用強大的以調(diào)度和高級擁塞控制等創(chuàng)新,滿足了AI應用對高帶寬、低延遲和高可靠性的嚴苛要求,重塑了其在現(xiàn)代數(shù)據(jù)中心中的價值。隨著網(wǎng)絡設備商、AI芯片制造商以及互聯(lián)網(wǎng)企業(yè)證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號資料來源:IDC超以太網(wǎng)聯(lián)盟由AMD、Arista、博通、思科等硬件廠商以及微軟、Meta等云廠商牽頭絡吞吐量、降低延遲,增強網(wǎng)絡的可靠性和穩(wěn)定性,為人工智能和高性能計算等領域的發(fā)展提供更加堅實的網(wǎng)絡基礎,同時保留以太網(wǎng)/IP生態(tài)系統(tǒng)的優(yōu)勢。UEC的目標是提供一個完整的通信協(xié)議棧,解決跨越多個協(xié)議層的技術問題,并提供易于配置和管理的一個全面且令人信服的解決方案。資料來源:Broadcom、轉(zhuǎn)引自gaitpu機協(xié)同工作,并特別增強了數(shù)據(jù)中心環(huán)境中的GPU到GPU通信(也稱為東西量在擁塞控制、無損網(wǎng)絡和負載均衡方面進行了優(yōu)化,使得其能支持加速計算的嚴基于遙測的擁塞控制:通過將高頻遙測探針與流量測量相結合,Spectrum-X擁塞控確保工作負載得到保護,并確保網(wǎng)絡提供性能隔離。這意味著各種類型的AI工作負載證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號可以同時在共享基礎設施上運行,而不會對彼此性能產(chǎn)生負面無損網(wǎng)絡:Spectrum-X將配置網(wǎng)絡實現(xiàn)無損,從而尾延遲。尾延遲是指一組并行任務中速度最慢的任務所經(jīng)歷的延遲,這將決定操作的整體完成時間。動態(tài)負載均衡:Spectrum-X使用細粒度動態(tài)路由來最大限度地提高網(wǎng)絡利用以太網(wǎng)的最高有效帶寬。動態(tài)路由通過在整個網(wǎng)絡中實現(xiàn)逐包負載均衡,避免了傳統(tǒng)以太網(wǎng)中靜態(tài)路由(等價多路徑,即ECMP)或flowlet路由的陷阱,而無需深度緩沖區(qū)或突發(fā)吸收。由于負載均衡意味著數(shù)據(jù)包可以亂序地到達目的地,NVIDIABlueField-3SuperNIC則確保重新排序數(shù)據(jù)包,并將其資料來源:英偉達官網(wǎng)證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號高性能、高可控以及低成本等特性,傳統(tǒng)品牌交換機不同設備廠商互通性偏低,網(wǎng)絡運維難度大,管控不能統(tǒng)一,一旦發(fā)生錯誤也很難實現(xiàn)快速定位,并且不利于未來的設備升級和功能擴展。白盒交換機、裸機交換機以更低成本、更高開放性等優(yōu)勢,受到眾多大型云廠商的青睞,未來數(shù)據(jù)中心交換機有望進一步白盒化、裸機化。其中,裸機交換機僅提供裸機交換機,白盒交換機提供裸機交換機和操作系統(tǒng)。裸機交換機相比白盒交換機更有成本優(yōu)勢,這一優(yōu)勢根本上是由售后服務剝離所帶來的,適用于海外數(shù)據(jù)中心高中低硬件組成統(tǒng)無否是是表資料來源:華經(jīng)情報網(wǎng),億渡數(shù)據(jù)《2022年中國交換機行業(yè)短報告》,華創(chuàng)證券白盒交換機、ODM直銷交換機銷售額快速增長,份額仍在提升。IDC數(shù)據(jù)顯示2024Q2年全球以太網(wǎng)交換機市場規(guī)模達到102億美元,同比-1中,數(shù)據(jù)中心部分市場收入同比+7.6%,環(huán)比+15.8%。白盒交換機代表廠商Ari網(wǎng)交換機2024Q2收入(其中90.2%來自數(shù)據(jù)中心)同比+12.4%,環(huán)比+7.0%,使該公機的市場份額逐步提高,后續(xù)或有望超過傳統(tǒng)交換機龍頭Cisco。ODM直銷交換機2024Q2收入同比+66.9%,占數(shù)據(jù)中心細分市場收入的19.1%,較2023年全年份額資料來源:IDC證監(jiān)會審核華創(chuàng)證券投資咨詢業(yè)務資格批文號:證監(jiān)許可(2009)1210號90.0%80.0%70.0%60.0%50.0%40.0%30.0%20.0%10.0%0.0%201220132014201520162017201820192020202120222023AristaCisco資料來源:CrehanResearch華創(chuàng)證券80.0%70.0%60.0%50.0%40.0%30.0%20.0%10.0%0.0%201220132014
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司與員工勞動合同范本(5篇)
- 2025年協(xié)作合同范本之培訓事項
- 2025年醫(yī)院衛(wèi)生耗材采購銷售合同規(guī)范文本
- 2025年人防使用權策劃管理合同書
- 2025年醫(yī)院安全整改協(xié)議書范例
- 2025年過熱蒸汽干燥設備項目規(guī)劃申請報告模板
- 2025年光盤數(shù)據(jù)備份協(xié)議
- 2025年鑄造造型材料項目規(guī)劃申請報告模板
- 2025年舞臺燈具項目申請報告模范
- 2025年農(nóng)業(yè)生產(chǎn)資料購銷合同范文合同樣本
- 2024年高考真題-政治(福建卷) 含解析
- 中醫(yī)培訓課件:《經(jīng)穴推拿術》
- 新能源汽車畢業(yè)論文
- 壓瘡的預防及護理課件(完整版)
- 專升本-英語高頻詞匯
- 《修辭立其誠》課件+2023-2024學年統(tǒng)編版高中語文選擇性必修中冊
- excel培訓課件教學
- 2024年浙江省中考社會試卷真題(含標準答案及評分標準)
- 社區(qū)衛(wèi)生服務中心家庭病床服務規(guī)范手冊
- 二十四式太極拳教案高一上學期體育與健康人教版
- 國家病案質(zhì)控死亡病例自查表
評論
0/150
提交評論