電子-AMD正式宣戰(zhàn)誰來為MI300站臺_第1頁
電子-AMD正式宣戰(zhàn)誰來為MI300站臺_第2頁
電子-AMD正式宣戰(zhàn)誰來為MI300站臺_第3頁
電子-AMD正式宣戰(zhàn)誰來為MI300站臺_第4頁
電子-AMD正式宣戰(zhàn)誰來為MI300站臺_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1告AI告AI芯片爭霸戰(zhàn)大幕正式開啟,誰來為AMDMI300站臺?AMD數(shù)據(jù)中心和人工智能技術(shù)首映式于加州時(shí)間2023年6月13日早上10點(diǎn)開始。主要發(fā)布產(chǎn)品為:云原生的BergamoCPU、3DV-Cache的Genoa-XCPU及AI芯片InstinctMI300XGPU和MI300AAPU。AMDCEOLisaSu認(rèn)為Al發(fā)展戰(zhàn)略主要在三方面:廣泛的CPU和GPU產(chǎn)品組合、開放且經(jīng)驗(yàn)證的軟件平臺以及深入的合作伙伴生態(tài)系統(tǒng)。AMD并未披露MI300系列的關(guān)鍵客戶合作信息,發(fā)布會當(dāng)天收盤下挫3.61%。但根據(jù)路透社6月14日獨(dú)家報(bào)道,亞馬遜高管DaveBrown表示AWS正考慮使用MI300。我們前序報(bào)告中提到,MI300全方位追擊英偉達(dá)GraceHopper,但軟件生態(tài)完善或成破局關(guān)鍵。LisaSu于5月31日的《福布斯》采訪時(shí)強(qiáng)調(diào)“放眼5年將在AMD每一個(gè)產(chǎn)品中看到AI”,AI是公司的戰(zhàn)略首位。目前,算力高的英偉達(dá)占據(jù)AI訓(xùn)練端的領(lǐng)導(dǎo)地位,但隨著AMD在AI芯片上逐步發(fā)力,或能開始撼動英偉達(dá)在行業(yè)里獨(dú)占鰲頭的地位。我們也認(rèn)為云廠商應(yīng)不希望AI芯片呈現(xiàn)一家獨(dú)大的局面,MI300恰逢其時(shí)地出現(xiàn),為市場提供了英偉達(dá)以外的選擇。風(fēng)險(xiǎn)提示:技術(shù)落地緩慢、中美局勢可能升級、芯片需求不及預(yù)期。動態(tài)點(diǎn)評增增持(維持)研究研究員SACNo.S0570523020002SFCNo.ASI353翩purdyho@+(852)36586000MI300X&MI300A:與英偉達(dá)相比,AMDAI能力如何?AMD展現(xiàn)出的AI產(chǎn)品與我們幾個(gè)前序報(bào)告中描述的大體一致,蓄勢待發(fā)切AMD展現(xiàn)出的AI產(chǎn)品與我們幾個(gè)前序報(bào)告中描述的大體一致,蓄勢待發(fā)切入AI訓(xùn)練賽道。MI300A為CPU+GPU架構(gòu),對標(biāo)英偉達(dá)GH200;而這次BH的800億個(gè);3)內(nèi)存帶寬5.2TB/s與H100的2-7.2TB/s相近。公司展示MI300X運(yùn)行400億參數(shù)的Falcon模型實(shí)時(shí)推理,此等參數(shù)規(guī)模的大語言模型為第一次在單片GPU上運(yùn)行。AMDMI300系列將成為英偉達(dá)有力的競爭對手,另外,還需關(guān)注英特爾和其他AI芯片企業(yè)如Cerebras和SambaNova,但更重要的競爭對手或是云計(jì)算巨頭自研芯片。業(yè)界首款x86云原生Bergamo及采用3D業(yè)界首款x86云原生Bergamo及采用3DV-Cache技術(shù)的Genoa-X正式推出。前者的峰值內(nèi)核數(shù)達(dá)128(可提高多線程能力,并對標(biāo)其他多核數(shù)的服務(wù)器產(chǎn)品如144核的IntelSierraForest),基于特別定制的Zen4c微架構(gòu),在保持與Zen4架構(gòu)基本相同的功能集的同時(shí)將內(nèi)核縮小35%,讓數(shù)據(jù)中心CPU的性能推向新高;后者采用超過1GB的L3緩存和3DV-Cache技術(shù),適用于緩存需求較高的技術(shù)計(jì)算。二者均為EPYC第四代和采用臺積電5nm制程,對比SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm),性能和制程尚處領(lǐng)先。此外,AMD也宣布與AWS、Oracle、Meta及微軟在第四代EPYC的合作關(guān)系。PyTorchPyTorchROCmHuggingFaceCEO也宣布將在AMD平臺上優(yōu)化數(shù)千個(gè)模型。此前我們在前序報(bào)告里多次對比英偉達(dá)CUDA和AMDROCm生態(tài)圈:ROCm起步較晚,開發(fā)者數(shù)量與CUDA相差較大。ROCm雖能完全兼容CUDA,但亦只屬權(quán)宜之計(jì)。AMD正積極拓展生態(tài)圈,包括支持Windows、在AI領(lǐng)域開拓更廣泛的PyTorch等,與二者的合作將對ROCm生態(tài)圈產(chǎn)生關(guān)鍵助力。AI爭霸戰(zhàn)大幕正式開啟,誰來為AMDMI300站臺? 3MIX肩H100,MI300A對陣GH200具一戰(zhàn)之力 3多方入局,英偉達(dá)在AI芯片市場能否笑到最后? 6第四代EPYC數(shù)據(jù)中心CPU家族成員發(fā)布,性能重磅升級 11 圖表2:AMDMI300X產(chǎn)品實(shí)物圖(共8個(gè)GPUchiplets) 4 圖表8:MI300A結(jié)構(gòu)示意圖(預(yù)測) 5 ISC將FalconShores規(guī)劃在CPU與GPU之間,ISC2023移動至Gaudi系列和GPU之間8 U 圖表21:AMDEPYCGenoa-X與Intel第四代Xeon產(chǎn)品對比(最高配置) 12圖表22:AMDEPYCGenoa-X與Intel第四代Xeon產(chǎn)品對比(同為32核) 12 AMD數(shù)據(jù)中心和人工智能技術(shù)首映式于加州時(shí)間2023年6月13日早上10時(shí)開始。本次的主要產(chǎn)品為:云原生的BergamoCPU、面向技術(shù)計(jì)算和采用3DV-cache的Genoa-XCPU、以及包括InstinctMI300XGPU和MI300AAPU在內(nèi)的AI平臺等。AMD的Al戰(zhàn)略主要在于三個(gè)方向:廣泛的CPU和GPU產(chǎn)品組合、開放穩(wěn)定且經(jīng)過驗(yàn)證(open,steadyandproven)的軟件平臺、以及深入的合作伙伴生態(tài)系統(tǒng)。AMD并未披露MI300系列的3.61%。但根據(jù)路透社6月14日的獨(dú)家報(bào)道,亞DaveBrown表示AWS正在考慮使用MI300。我們在今年的前序報(bào)告:5月18日發(fā)布的《AMD:MI300在AI正面交鋒英偉達(dá),16年CPU突圍成功能否復(fù)制?》、5月30日發(fā)布的《英偉達(dá)GH200vsAMDMI300》和6月11日發(fā)布的《AMDMI300:AI芯片十問十答》中提到,MI300全方位追擊英偉達(dá)GraceHopper,但軟件生態(tài)完善或成破局關(guān)資料來源:AMD官網(wǎng)、華泰研究在以AI為首的戰(zhàn)略背景下,此次數(shù)據(jù)中心與人工智能技術(shù)首映會發(fā)布的純GPUMI300X參數(shù)跟英偉達(dá)H100比肩,而CPU+GPU架構(gòu)的MI300A對陣GH200也具一戰(zhàn)之力。本次首映會中AMD展現(xiàn)出的AI能力與我們幾個(gè)前序報(bào)告中提及的大體一致,蓄勢待發(fā)切入AI訓(xùn)練賽道。GPUAIUCPU構(gòu)成。MI300X參數(shù)上值得關(guān)注的亮點(diǎn)包括:1)192GBHBM3內(nèi)存,領(lǐng)先于英偉達(dá)H100NVL的雙卡共188GBHBM3;2)共1530億的晶體管數(shù)量,遠(yuǎn)超H100的800億;3)內(nèi)存帶寬5.2TB/s與英偉達(dá)H100的2-7.2TB/s相近;4)InfinityFabric互聯(lián)帶寬的896GB/s與NVLink的900GB/s也相差無幾;5)比H100高2.4X的HBM密度,以及1.6XHBM帶寬。無可否認(rèn),MI300X或?qū)⒊蔀榭蛻粼贖100之外有力選擇,或也可對AI芯片定價(jià)造成一定影響。MI300A目前正在送樣,而MI300X則要等到Q3。資料來源:AMD數(shù)據(jù)中心&AI首映式、華泰研究資料來源:AMD數(shù)據(jù)中心&AI首映式、華泰研究AMD也展示了MI300X在400億參數(shù)的Falcon模型上進(jìn)行實(shí)時(shí)推理的能力,公司稱這是此等參數(shù)規(guī)模的大語言模型第一次在單GPU上運(yùn)行。公司表示MI300X還可運(yùn)行規(guī)模更大的模型,比如Meta的OPT模型(660億參數(shù)版本)和LLaMA(650億參數(shù)),如果使用FP16精度在單一MI300X上推理,最高可以運(yùn)行800億參數(shù)的模型。源:AMD官網(wǎng)、華泰研究AMD的MI300A為APU架構(gòu)(Zen4CPU+CNDA3GPU),與英偉達(dá)的GH200正面交鋒。AMD于2023年1月的CES2023介紹了MI300(我們在前序報(bào)告中介紹的CPU+GPU架構(gòu),就是現(xiàn)今的MI300A)。它結(jié)合CPU與GPU,聚焦AI和HPC(highperformancecomputing),對標(biāo)英偉達(dá)GraceHopper(GraceCPU+HopperH100GPU)。性能方面比前序產(chǎn)品MI250高8X,效率也高5X。AMD這次也一改過去GPU產(chǎn)品主要應(yīng)用在圖像處理及AI推理領(lǐng)域的局限。MI300A應(yīng)該是除了谷歌的TPU之外,能與英偉達(dá)在AI訓(xùn)練端上匹敵的產(chǎn)品。MI300A在規(guī)格及性能方面同樣全面追擊英偉達(dá)GraceHopper。資料來源:AMD數(shù)據(jù)中心&AI首映式、華泰研究資料來源:CES2023、華泰研究從封裝方案看,MI300系列都使用了臺積電SoIC(3D)和CoWoS(2.5D)兩種封裝技術(shù),相比英偉達(dá)的H100和GH200則只采用CoWoS封裝技術(shù)。3DChiplet封裝技術(shù)具有提高性能、降低延遲和功耗的優(yōu)點(diǎn),也可彌補(bǔ)x86架構(gòu)相較ARM架構(gòu)在AI應(yīng)用中的能耗問題。PU而下層為4個(gè)基于6nm制程的I/O+cachechiplets,芯片兩側(cè)圍繞8個(gè)總計(jì)128GB容量的HBM3高帶寬內(nèi)存。MI300X與MI300A相比,去掉了3個(gè)CPU,換為2個(gè)GPU,并將HBMGBGBDigitimes稱,臺積電確認(rèn)將部分先進(jìn)封裝外包給其他廠商,如通富微電將代工MI300的封裝。資料來源:臺積電官網(wǎng)、華泰研究資料來源:電子工程專輯、華泰研究產(chǎn)品名稱英偉達(dá)A100PCIe|SXMH100PCIe|SXM|NVLAMDMI250XMI300AMI300X發(fā)布時(shí)間2020.62022.32021.112023.12023.6峰值算力(TFLOPS)FP16:312|624FP32:19.5FP64:19.5FP8:3,026|3,958|7,916FP16:1,513|1,979|3,958FP32:51|67|134FP64:51|64|134FP16:383FP32/64:47.9FP32/64Matrix:95.7暫無暫無工藝制程及芯片面積7nm,826mm24nm,814mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量(億)54080058214601530內(nèi)存容量80GBHBM2e80|80|188GBHBM3128GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1,935|2,039GB/s2|3.35TB/s|7.8TB/s3.2TB/s暫無5.2TB/sInterconnect600GB/sNVLinkfor2GPUs64GB/sPCIeGen4600|900|600GB/sNVLink125GB/sPCIeGen5100GB/s約800GB/s896GB/s熱設(shè)計(jì)功耗TDP(W)00|400300-350|700|2x350-400500600暫無資料來源:AMD官網(wǎng)、英偉達(dá)官網(wǎng)、華泰研究MI300A的客戶勞倫斯利弗莫爾國家實(shí)驗(yàn)室在2023年5月22日的ISC2023大會上表示,MI300A統(tǒng)一的內(nèi)存層可簡化編程,降低不同類型計(jì)算和不同內(nèi)存池之間數(shù)據(jù)移動的復(fù)雜性,從而減少延遲并提高性能和功效。MI300A將于2023年底搭載在該實(shí)驗(yàn)室,由慧與(HewlettPackardEnterprise)旗下超算公司Cray制造的ElCapitan超級計(jì)算機(jī)上。資料來源:惠與官網(wǎng)、華泰研究除英偉達(dá)和AMD外,還需關(guān)注英特爾和其他AI芯片企業(yè)如Cerebras和SambaNova等的布局,但我們認(rèn)為更重要的競爭對手也許是云計(jì)算巨頭們自己設(shè)計(jì)專用芯片。LisaSu在會上也表示,數(shù)據(jù)中心的AI芯片市場規(guī)模將從今年的300億美元左右,上升至2027年00億美元。英特爾的AI芯片布局包括GPU產(chǎn)品PonteVecchio(今年一季度推出)和下一代Falcon (公司準(zhǔn)備在2025年推出),另外也包括HabanaGaudi系列。在今年三月,英特爾發(fā)布了加速計(jì)算系統(tǒng)和圖像組的暫代總經(jīng)理JeffMcVeigh的一封信。信中提到公司GPU產(chǎn)品的未來的發(fā)展路徑,包括取消一些原定在未來1至1.5年準(zhǔn)備推出的服務(wù)器GPU產(chǎn)品,如RialtoBridge,但會將更多資源投放到Falcon上。這意味著英特爾在PonteVecchio之后,將相隔最少兩年才會推出新的GPU產(chǎn)品Falcon。1)PonteVecchio:早在2021年發(fā)布,但2023年一季度才推出。PonteVecchioGPU宣布PonteVecchioGPU(XeHPC)的計(jì)算層采用了臺積電N5工藝,基底采用了Intel7 (對標(biāo)臺積電7nm),XeLinkI/O是臺積電N7,另外RamboCache采用的是Intel7,對比H100和MI300的臺積電N5制程。晶體管數(shù)量超1000億個(gè),高于H100的800億,但低于MI300X的1530億。內(nèi)存屬HBM2e,落后于H100和MI300X的HBM3。2)FalconShores:FalconShores原定為XPU(即CPU+GPU架構(gòu))產(chǎn)品,并準(zhǔn)備于時(shí)發(fā)布了CPU+GPU架構(gòu)的AI芯片,因此英特爾在此架構(gòu)上屬于掉隊(duì)。目前產(chǎn)品參數(shù)細(xì)節(jié)3)HabanaGaudi:Gaudi是由英特爾在2019年12月以20億美元收購的HabanaLabs,主要設(shè)計(jì)ASIC芯片。第一款Gaudi(TSMCN16)于2019年6月推出,目前已迭代至HabanaGaudi2(TSMCN7),2022年末已推出。Gaudi2包含2個(gè)MME(MatrixMultiplicationEngine,矩陣乘法引擎)和24個(gè)TPC(TensorProcessorCore,張量處理器),前者負(fù)責(zé)處理所有可以轉(zhuǎn)換成矩陣運(yùn)算的任務(wù),例如卷積、GEMM等,后者處理其他類型的運(yùn)算。這兩種計(jì)算引擎可以并行使用,因此兩種類型的運(yùn)算可以重疊進(jìn)行,在Gaudi2的產(chǎn)品技術(shù)手冊中,通過這種重疊進(jìn)行的運(yùn)算解釋了Gaudi2可以有效提高運(yùn)行AI模型的受益于以上架構(gòu)特點(diǎn),公司表示Gaudi2的基準(zhǔn)測試較A100表現(xiàn)較為優(yōu)秀。推理端,HuggingFace在2023年3月對HabanaGaudi2與A100進(jìn)行了大模型(BLOOMZ,1760億參數(shù))推理的基準(zhǔn)測試。結(jié)果顯示,Gaudi2比A100快1.2倍。訓(xùn)練端,HabanaLab對HabanaGaudi2與A100進(jìn)行了基準(zhǔn)測試,運(yùn)行了兩款芯片在RestNet50和BERT模型訓(xùn)練的測試,稱其訓(xùn)練吞吐量可達(dá)到英偉達(dá)A100GPU的兩倍。然而,想要與英偉達(dá)在訓(xùn)練端匹敵,Gaudi還要面對H100。英偉達(dá)在2022年11月對H100和Gaudi2進(jìn)行了對i快2.4倍。我們需要強(qiáng)調(diào),ASIC仍然面臨通用性較弱,以及開發(fā)成本較高等局限,大規(guī)模搶占GPU訓(xùn)練市場的可能性目前來說較為有限。資料來源:英特爾官網(wǎng)、華泰研究資料來源:英特爾官網(wǎng),華泰研究ISC2022FaIconShoresCPU+GPU規(guī)劃在CPU和GPU之間ISC2023FaIconShoresPU將結(jié)合Gaudi的部分IP資料來源:英特爾官網(wǎng),華泰研究資料來源:Cerebras官網(wǎng),華泰研究資料來源:SambaNova官網(wǎng)、華泰研究“Big5startups”:AI芯片的另外一類玩家是“Big5startups”,指Graphcore,Habana (已屬英特爾),Cerebras,SambaNova和寒武紀(jì)五家初創(chuàng)芯片企業(yè),其中寒武紀(jì)為中國企業(yè)。我們認(rèn)為值得關(guān)注Cerabras和SambaNova等對英偉達(dá)發(fā)起的以小博大嘗試:WaferScaleEngine即晶圓級別芯片,晶圓級指的是這款芯片幾乎像一個(gè)完整的晶圓一樣大(晶圓通常為8英寸直徑左右,和WSE2的460cm2在同一個(gè)量級),一塊WSE-2上有2.6萬億晶體管,核心數(shù)量達(dá)到85萬個(gè),是A100芯片的123倍。生產(chǎn)這種大型芯片的動力是為了更好地部署AI大模型,公司稱由于AI大模型需要在眾多的GPU上分布式訓(xùn)練,數(shù)據(jù)在GPU之間傳輸,浪費(fèi)時(shí)間又增加能耗,所以想讓產(chǎn)品同時(shí)具備百千個(gè)GPU的算力和單一芯片的簡單性。Cerabras把一片WSE2部署在一臺CS-2AI平臺上,一臺CS-2售價(jià)在200萬美元以上,目前已被多個(gè)科研機(jī)構(gòu)(包括NCSA國家超級電腦應(yīng)用中心、LeibnizSupercomputingCentre萊布尼茲超級計(jì)算中心等)和一家美國主要的金融機(jī)構(gòu)用于搭建超算,并部署AI工作。值得關(guān)注的是,WSE-2一度是單片能訓(xùn)練最大參數(shù)量AI模型的芯片:2022年6月Cerabras宣布單片WSE-2可以訓(xùn)練200億參數(shù)的模型。對比現(xiàn)在AMD的MI300X能實(shí)現(xiàn)400-800億模型的推理。2)SambaNova:最新的AI芯片是SN30,采用臺積電N7工藝,有860億晶體管,可編程性強(qiáng),類似于一款FPGA,但公司稱SN30相比傳統(tǒng)的FPGA配置時(shí)間更快。公司稱基于SN30的DataScale系統(tǒng)(8個(gè)SN30)在訓(xùn)練130億參數(shù)GPT模型時(shí)比DGXA100快6倍。埃森哲已于2023年4月宣布采用SambaNova的AI芯片平臺SN30系統(tǒng)用于生成3)Graphcore:Graphcore最新的AI芯片是BowIPU,類似于一款A(yù)SIC,但公司稱其不SICGPUccGBsBowreAzureAI,也在自研Athena。Graphcore正在努力切入中國市場,為中國大型互聯(lián)網(wǎng)公司為主提供AI硬件。資料來源:Graphcore官網(wǎng),華泰研究資料來源:Graphcore官網(wǎng)、華泰研究云廠商自研AI芯片或?qū)⑹菍τミ_(dá)最大的競爭對手。云廠商針對TCO(totalcostofownership),具備較高意愿自研芯片。但除了自身的研發(fā)能力外,其他條件也必須要符合,包括算法要較為成熟和穩(wěn)定、擁有自己的軟件生態(tài)和應(yīng)用,以及足夠的芯片需求去攤分設(shè)計(jì)芯片的固定成本。云廠商自研AI芯片的典型是谷歌TPU(TensorProcessingUnit,從2017年開始已具備訓(xùn)練和推理能力),目前已發(fā)展到第四代,在架構(gòu)與性能參數(shù)上不斷迭代。我們認(rèn)為谷歌的TPU是少數(shù)能與英偉達(dá)高算力GPU匹敵的AI芯片。谷歌目前通過谷歌云服務(wù)平臺向外部客戶提供TPU的算力租賃服務(wù),而并未將其作為硬件產(chǎn)品出售。谷歌TPU的應(yīng)用可以分為兩類,分別是對內(nèi)承擔(dān)AI工作負(fù)載和其他應(yīng)用,對外在云服務(wù)上提供給客戶。對內(nèi):根據(jù)路透社4月5日的報(bào)道,目前谷歌內(nèi)部90%的AI工作負(fù)載都使用TPU,例如在擁有5400億參數(shù)的PaLM模型訓(xùn)練中,就使用了6144個(gè)TPUv4。今年的PaLM2也是采用TPUv4來訓(xùn)練。除AI工作負(fù)載之外,TPU也已廣泛應(yīng)用于翻譯、相冊、搜索、Google助理和Gmail等眾多Google產(chǎn)品。對外:谷歌云服務(wù)同時(shí)提供GPU和TPU給客戶選擇。谷歌云上TPU相比GPU的價(jià)格較有優(yōu)勢,但也在一定程度上受限于生態(tài)圈。谷歌云上A10080GB價(jià)格為3.93美元/芯片/小時(shí),TPUv4價(jià)格為3.22美元/芯片/小時(shí)。但是,需要考慮谷歌的TPU是專門針對自身的開源深度學(xué)習(xí)框架TensorFlow作ensorFlow在深度學(xué)習(xí)里的生態(tài)也成熟,使用者眾,但其他機(jī)器學(xué)習(xí)庫的開發(fā)者群或也會有自己的偏好。目前使用TPU的客戶包括Midjourney、Cohere、LGAIResearch等AI公司。第一代TPU從2015年開始被使用于谷歌云計(jì)算數(shù)據(jù)中心的機(jī)器學(xué)習(xí)應(yīng)用中,彼時(shí)面向推理端,但從2017年推出第二代開始,TPU已同時(shí)擁有訓(xùn)練和推理能力。第三代TPU于2018年發(fā)布,旨在提高性能和能效以滿足不斷增長的機(jī)器學(xué)習(xí)任務(wù)需求,但其應(yīng)用范圍仍然會在一定程度上受限于谷歌的生態(tài)系統(tǒng)和軟件包。矩陣乘法是Transformer模型中最為關(guān)鍵的計(jì)算步驟之一,而TPU針對矩陣乘法進(jìn)行了專門的優(yōu)化,采用脈動列陣,對大規(guī)模矩ormer時(shí)節(jié)約訓(xùn)練成本。TPUv3TPUv3TPUv2TPU芯片包含2個(gè)TensorCore;TensorCoreMXU位和1個(gè)標(biāo)每每個(gè)TPUv3芯片包含2個(gè)TensorCore;每個(gè)TensorCore都有2個(gè)MXU、1個(gè)矢量單元和1個(gè)標(biāo)量單位TPUv4TPUv芯片包含2個(gè)TensorCore;個(gè)標(biāo)量單位資料來源:谷歌官網(wǎng)、華泰研究發(fā)布年份TPUv12016TPUv22017TPUv32018TPUv42021每顆芯片的峰值計(jì)算能力(TFLOPS)92(int8)46(bf16)123(bf16)275(bf16orint8)HBM2容量與帶寬28GiB,34GB/s32GiB,700GB/s32GiB,900GB/s32GiB,1200GB/s最小/平均/最大測量功耗(W)--123/220/26290/170/192TPUPod規(guī)模(芯片數(shù)量)-25610244096互連拓?fù)浣Y(jié)構(gòu)-2Dtorus2Dtorus3Dtorus每個(gè)Pod的峰值計(jì)算能力(PFLOPS)-12(bf16)126(bf16)1100(bf16orint8)每個(gè)Pod的All-reduce帶寬(TB/s)-203401126.4每個(gè)Pod的切分帶寬(TB/s)-26.424目標(biāo)應(yīng)用場景推理端訓(xùn)練&推理端訓(xùn)練&推理端訓(xùn)練&推理端資料來源:谷歌官網(wǎng)、nextplatform官網(wǎng)、華泰研究微軟早在2010年開始希望自研AI硬件,當(dāng)時(shí)以外采FPGA、自己搭建運(yùn)算平臺為主要目標(biāo)。FPGA的方案最早由微軟的計(jì)算機(jī)架構(gòu)研究員、FPGA專家DougBurger提出。根據(jù)Shilicon,微軟自研FPGA的第一階段采用了單板多FPGA的方案,即每塊加速卡上集成6片XilinxVirtix-6FPGA,各FPGA之間通過自身的通用I/O端口相連和通信,但整體穩(wěn)定性存在較多問題,若一塊FPGA出問題,整個(gè)板卡都會出問題。第二階段從單板多FPGA,變成了單板單FPGA。但是,這種方案為實(shí)現(xiàn)FPGA之間的低延時(shí)通信,F(xiàn)PGA之間的互聯(lián)需要通過兩類特殊定制的線纜,成本高昂且實(shí)現(xiàn)難度較高。第三階段為解決互聯(lián)問題,取消了FPGA互連的網(wǎng)絡(luò),直接將FPGA與數(shù)據(jù)中心網(wǎng)絡(luò)互連。到此為止,微軟的所有努力都是使用外采的FPGA產(chǎn)品,自己搭建FPGA的AI平臺。AzureAITom’sHardware,芯片的代號為Athena,據(jù)Tom’sHardware2023年4月18日消息,Athena使用臺積電5nm制程,專門為大語言模型訓(xùn)練設(shè)計(jì)。據(jù)彭博社5月4日報(bào)道,微軟將注資AMD并開展合作,目前合作研發(fā)的微軟AI芯片即為Athena,希望為ChatGPT等大語言模型的訓(xùn)練及推理提供英偉達(dá)芯片以外的替代方案。隨后5月5日,微軟發(fā)言人FrankShaw表示AMD參與“雅典娜”項(xiàng)目的報(bào)道不實(shí),但并未明確微軟與AMD的合作關(guān)系。我們認(rèn)為,大型云計(jì)算供應(yīng)商擁有財(cái)力物力,面對較高的外購成本和較有限的靈活性,選擇自己設(shè)計(jì)AI芯片并非意外,且微軟與OpenAI的合作中用到大量的英偉達(dá)芯片。我們認(rèn)為云計(jì)算大廠希望出現(xiàn)一個(gè)二供的選擇也很理所當(dāng)然。AWS分別在2019和2020年推出AI模型推理端芯片Inferentia以及訓(xùn)練端芯片Trainium,并整合到其AWS中。2022年正式推出的Trn1AI平臺可以部署最多16個(gè)Trainium,可在左右的AI模型訓(xùn)練成本。EPYCCPU員發(fā)布,性能重磅升級AMD在會上強(qiáng)調(diào)了CPU在AI領(lǐng)域的重要性,稱目前絕大多數(shù)AI工作負(fù)載仍以CPU運(yùn)行,并正式推出了行業(yè)首款x86云原生Bergamo及采用3DV-Cache技術(shù)的Genoa-X,并與Intel云端最新款CPU4thgenXeon(也就是SapphireRapids)進(jìn)行對比。Bergamo基于Zen4c架構(gòu),內(nèi)核+L2區(qū)域合計(jì)2.48平方毫米,比Zen4的3.84平方毫米減少了35%,采用了8個(gè)16核的CCD,內(nèi)核數(shù)最高可至128個(gè),可提高多線程能力,并對標(biāo)其他多核數(shù)的服務(wù)器產(chǎn)品如英特爾下一代144核的SierraForest。Genoa-X內(nèi)核數(shù)最高96個(gè),采用1.3GB的L3緩存,并集成了3DV-Cache技術(shù),適用于緩存需求較高的技術(shù)計(jì)算。二者作為第四代EPYC家族成員均采用臺積電5nm制程,對比SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm)尚處領(lǐng)先。AMD第四代EPYCCPU均采用臺積電5nm制程,目前仍領(lǐng)先于英特爾。但I(xiàn)ntel在先進(jìn)制程的追趕方案比較激進(jìn),似有正在逐步接近AMD制程的可能。目前,Intel在服務(wù)器領(lǐng)域最新產(chǎn)品SapphireRapids采用的Intel7節(jié)點(diǎn)(10nm相當(dāng)于臺積電7nm)。但根據(jù)Intel技術(shù)路線圖,如果英特爾按照“四年五節(jié)點(diǎn)”計(jì)劃順利推進(jìn),則AMD依賴臺積電所獲得的制程優(yōu)勢或?qū)⒖s小,甚至在服務(wù)器端2025年可能出現(xiàn)英特爾超過臺積電的情況。但英特爾究竟能否在2025年或以前順利推進(jìn)制程計(jì)劃還需進(jìn)一步觀察,2024年Intel3的落地情況將是關(guān)鍵一步。資料來源:CES2023、華泰研究資料來源:AMD官網(wǎng)、華泰研究資料來源:AMD官網(wǎng)、華泰研究*AMDZen62nmAMDPYCTurinAMDEPYCVeniceAMDEPYCGenoa&GenoaXEPYCBergamoEPYCSienna*AMDZen*AMDZen62nmAMDPYCTurinAMDEPYCVeniceAMDEPYCGenoa&GenoaXEPYCBergamoEPYCSienna*AMDZen53/4nm7nm+AMDZen45nm英特爾*SierraForest*GraniteRapidsnmAMDZen27nmCooperLake(2020)2019資料來源:CES2023、華泰研究T2nm3nm5nm7nmnmnmnm制程M英特爾*CIearwaterForest*Diamond制程M**InteI.8nmAMDEPYCRomeP127410nmAMDZen37nm英特爾BroadweIIEP/EX(2014-2015)SkyIake(2017)英特爾BroadweIIEP/EX(2014-2015)SkyIake(2017)AMDiIan英特爾IceLake-SP(2021)AMD服務(wù)器端制程首度超英特AMAMD服務(wù)器端制程首度超英特AMDEPYCNapIesAMDZen1nmP1272nmKabyLakeDT(2017)CoffeeLakeE(2019)CascadeLakeSP(2019)間2015201620172018201420間2015201620172018201420212022202320242025資料來源:AMD官網(wǎng)、英特爾官網(wǎng)、華泰研究系列名稱VeniceTurinSienaBergamoGenoa-XGenoaMilan-XMilanRomeNaples系列編號CKCKCCCCCCCC發(fā)布年份2025+202420232023202320222022202120192017CPU架構(gòu)Zen*Zen5ZenZenCZenV-CacheZenZen3Zen3ZenZen1制程nmTSMC5nmTSMC4nmTSMC5nmTSMC5nmTSMCnmTSMCnmTSMCnmTSMC插座PSP6SP5SP5SP5SP3SP3SP3SP3插槽LGA6096AAAAAAAA最大核心數(shù)4*4664442最大線程數(shù)*256*2564最大三級緩存4MBMB256MB256MB4MBChiplet設(shè)計(jì)8CCD'sCXCCDCCDacheXCCDCCD3DV-CachesXCCDsCCDssCCDCCD's(2CCX's/CCD)內(nèi)存支持DDR*DDRDDR*DDRDDRDDRDDRDDRDDR存儲器通道TBD12ChannelsPlslsPCIeGen支持TBDTBDnn最大熱設(shè)計(jì)功耗TBD480WPWW0WPW400W400W280W280W280W200W*注:具體參數(shù)官方尚未確認(rèn)資料來源:Wccftech、華泰研究最后,AMD還宣布了與AWS、Oracle、Meta及微軟在第四代EPYCCPU產(chǎn)品上的合作關(guān)系。但并沒有宣布MI300系列的合作客戶。U資料來源:CES2023、華泰研究提示技術(shù)落地緩慢:公司的生產(chǎn)技術(shù)推進(jìn)和產(chǎn)品落地可能達(dá)不到預(yù)期,或影響營收及利潤。中美局勢可能升級:中國是美國半導(dǎo)體產(chǎn)業(yè)的重要市場之一,如果中美局勢再次升級,將對宏觀因素和板塊產(chǎn)品銷售產(chǎn)生影響。芯片需求不及預(yù)期:市場的芯片需求規(guī)??赡懿患邦A(yù)期,影響行業(yè)營收及利潤。宏觀經(jīng)濟(jì)不確定性:宏觀經(jīng)濟(jì)的下行壓力和不確定性可能影響公司主營業(yè)務(wù)及合作進(jìn)展。相關(guān)信息數(shù)據(jù)來自于相關(guān)公司的公開的客觀信息,不代表對相關(guān)公司的研究覆蓋和推薦。分析師聲明本人,何翩翩,茲證明本報(bào)告所表達(dá)的觀點(diǎn)準(zhǔn)確地反映了分析師對標(biāo)的證券或發(fā)行人的個(gè)人意見;彼以往、現(xiàn)在或未來并無就其研究報(bào)告所提供的具體建議或所表迖的意見直接或間接收取任何報(bào)酬。一般聲明及披露本報(bào)告由華泰證券股份有限公司(已具備中國證監(jiān)會批準(zhǔn)的證券投資咨詢業(yè)務(wù)資格,以下簡稱“本公司”)制作。本報(bào)告所載資料是供接收人的嚴(yán)格保密資料。本報(bào)告供本公司及其客戶和其關(guān)聯(lián)機(jī)構(gòu)使用。本公司不因接收人收到本報(bào)告而視其為客戶。本報(bào)告基于本公司認(rèn)為可靠的、已公開的信息編制,但本公司及其關(guān)聯(lián)機(jī)構(gòu)(以下統(tǒng)稱為“華泰”)對該等信息的準(zhǔn)確性及完整性不作任何保證。本報(bào)告所載的意見、評估及預(yù)測反映報(bào)告發(fā)布當(dāng)日的觀點(diǎn)和判斷。在不同時(shí)期,華泰可能會發(fā)出與本報(bào)告所載意見、評估及預(yù)測不一致的研究報(bào)告。同時(shí),本報(bào)告所指的證券或投資標(biāo)的的價(jià)格、價(jià)值及投資收入可能會波動。以往表現(xiàn)并不能指引未來,未來回報(bào)并不能得到保證,并存在損失本金的可能。華泰不保證本報(bào)告所含信息保持在最新狀態(tài)。華泰對本報(bào)告所含信息可在不發(fā)出通知的情形下做出修改,投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司不是FINRA的注冊會員,其研究分析師亦沒有注冊為FINRA的研究分析師/不具有FINRA分析師的注冊資華泰力求報(bào)告內(nèi)容客觀、公正,但本報(bào)告所載的觀點(diǎn)、結(jié)論和建議供參考,不構(gòu)成購買或出售所述證券的要約或招攬。該等觀點(diǎn)、建議并未考慮到個(gè)別投資者的具體投資目的、財(cái)務(wù)狀況以及特定需求,在任何時(shí)候均不構(gòu)成對客戶私人投資建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況,并完整理解和使用本報(bào)告內(nèi)容,不應(yīng)視本報(bào)告為做出投資決策的唯一因素。對依據(jù)或者使用本報(bào)告所造成的一切后果,華泰及作者均不承擔(dān)任何法律責(zé)任。任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報(bào)告中所引用的關(guān)于業(yè)績的數(shù)據(jù)代表過往表現(xiàn),過往的業(yè)績表現(xiàn)不應(yīng)作為日后回報(bào)的預(yù)示。華泰不承諾也不保證任何預(yù)示的回報(bào)會得以實(shí)現(xiàn),分析中所做的預(yù)測可能是基于相應(yīng)的假設(shè),任何假設(shè)的變化可能會顯著影響所預(yù)測的回報(bào)。華泰及作者在自身所知情的范圍內(nèi),與本報(bào)告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。在法律許可的情況下,華泰可能會持有報(bào)告中提到的公司所發(fā)行的證券頭寸并進(jìn)行交易,為該公司提供投資銀行、財(cái)務(wù)顧問或者金融產(chǎn)品等相關(guān)服務(wù)或向該公司招攬業(yè)務(wù)。華泰的銷售人員、交易人員或其他專業(yè)人士可能會依據(jù)不同假設(shè)和標(biāo)準(zhǔn)、采用不同的分析方法而口頭或書面發(fā)表與本報(bào)告意見及建議不一致的市場評論和/或交易觀點(diǎn)。華泰沒有將此意見及建議向報(bào)告所有接收者進(jìn)行更新的義務(wù)。華泰的資產(chǎn)管理部門、自營部門以及其他投資業(yè)務(wù)部門可能獨(dú)立做出與本報(bào)告中的意見或建議不一致的投資決策。投資者應(yīng)當(dāng)考慮到華泰及/或其相關(guān)人員可能存在影響本報(bào)告觀點(diǎn)客觀性的潛在利益沖突。投資者請勿將本報(bào)告視為投資或其他決定的唯一信賴依據(jù)。有關(guān)該方面的具體披露請參照本報(bào)告尾部。本報(bào)告并非意圖發(fā)送、發(fā)布給在當(dāng)?shù)胤苫虮O(jiān)管規(guī)則下不允許向其發(fā)送、發(fā)布的機(jī)構(gòu)或人員,也并非意圖發(fā)送、發(fā)布給因可得到、使用本報(bào)告的行為而使華泰違反或受制于當(dāng)?shù)胤苫虮O(jiān)管規(guī)則的機(jī)構(gòu)或人員。本報(bào)告版權(quán)為本公司所有。未經(jīng)本公司書面許可,任何機(jī)構(gòu)或個(gè)人不得以翻版、復(fù)制、發(fā)表、引用或再次分發(fā)他人(無論整份或部分)等任何形式侵犯本公司版權(quán)。如征得本公司同意進(jìn)行引用、刊發(fā)的,需在允許的范圍內(nèi)使用,并需在使用前獲取獨(dú)立的法律意見,以確定該引用、刊發(fā)符合當(dāng)?shù)剡m用法規(guī)的要求,同時(shí)注明出處為“華泰證券研究所”,且不得對本報(bào)告進(jìn)行任何有悖原意的引用、刪節(jié)和修改。本公司保留追究相關(guān)責(zé)任的權(quán)利。所有本報(bào)告中使用的商標(biāo)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論