版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀??萍际状胃采w首次覆蓋人工智能風(fēng)繼續(xù)吹,AI芯片乘風(fēng)而起,但B端應(yīng)用落地才是制勝關(guān)鍵本輪AI浪潮由ChatGPT掀起,并引發(fā)各中外科技企業(yè)展開對大語言模型及生成式AI的追逐和對算力的軍備競賽。GPT背后的核心算法是谷歌在2017年提出的Transformer,相對于深度學(xué)習(xí),其創(chuàng)新在于采用了接近無監(jiān)督的自我監(jiān)督預(yù)訓(xùn)練,因此需要大量訓(xùn)練數(shù)據(jù),加上少量有監(jiān)督的微調(diào)和強(qiáng)化學(xué)AI熱潮能否持續(xù)將取決于B端的大規(guī)模應(yīng)用落地。AI浪潮方興未艾,我們首次覆蓋給予AI芯片行業(yè)增持評級,重點(diǎn)推薦龍頭英偉達(dá)及突圍者AMD。首選軟硬件一體雙護(hù)城河的英偉達(dá),同時(shí)看好突圍二戰(zhàn)有望凱旋的AMD作為全球AI芯片的龍頭廠商,英偉達(dá)在高算力硬件和高粘性CUDA生態(tài)的雙護(hù)城河下優(yōu)勢明顯,將充分受益于AI需求高漲。我們認(rèn)為,短期內(nèi)英偉達(dá)將主要由數(shù)據(jù)中心業(yè)務(wù)帶動(dòng),長期成長則取決于AI商業(yè)應(yīng)用落地及芯片競爭格局的演變。隨著CoWoS產(chǎn)能瓶頸的改善,我們認(rèn)為英偉達(dá)GPU放量節(jié)奏將迎來加速。AMD曾憑臺(tái)積電的領(lǐng)先制程顛覆了一家獨(dú)大的英特爾,如今在AI領(lǐng)域面對英偉達(dá)的突圍戰(zhàn)似曾相識。AI已是AMD戰(zhàn)略首位,MI300也蓄勢待發(fā),我們認(rèn)為AI新賽道乃AMD重估之鑰。對比英偉達(dá)完善的軟件生態(tài)CUDA,AMD的ROCm會(huì)否成為其阿克琉斯之踵?半導(dǎo)體半導(dǎo)體研究員研究員SACNo.S0570523020002SFCNo.ASI353+(852)36586000purdyho@華泰證券研究所分析師名錄重點(diǎn)推薦股票名稱股票代碼(當(dāng)?shù)貛欧N)投資評級英偉達(dá)NVDAUS650.00買入超威半導(dǎo)體AMDUS150.00買入資料來源:華泰研究預(yù)測AI芯片競爭趨白熱化:訓(xùn)練端“一超多強(qiáng)”,推理端百花齊放英偉達(dá)GPU一直為AI訓(xùn)練端首選。我們認(rèn)為只有少數(shù)芯片能與其匹敵,如谷歌TPU和AMDMI300系列。當(dāng)算法開始穩(wěn)定和成熟,ASIC定制芯片憑著專用性和低功耗,能承接部分算力。因此,頭部云計(jì)算及互聯(lián)網(wǎng)大廠出于削減TCO、提升研發(fā)可控性及集成生態(tài)等考量,均陸續(xù)發(fā)力自研芯片,我們認(rèn)為或?qū)⒊蔀橛ミ_(dá)最大的競爭對手。初創(chuàng)企業(yè)如Cerebras、Graphcore等,以晶圓級芯片拼內(nèi)存和傳輸速度,也有望異軍突起。AI推理市場規(guī)模大,但對算力要求比訓(xùn)練較低,因此百花齊放,在大模型和多模態(tài)趨勢下GPU或能奪份額。但目前推理端還是以CPU主導(dǎo),多方涌入下競爭愈發(fā)激烈。臺(tái)積電CoWoS封裝產(chǎn)能乃AI芯片廠商“必爭之地”英偉達(dá)H100采用臺(tái)積電CoWoS先進(jìn)封裝技術(shù),而AMDMI300采用臺(tái)積片需求旺盛,臺(tái)積電CoWoS封裝乃限制出貨量的瓶頸之一。但據(jù)Digitimes達(dá)24萬片,而英偉達(dá)將取得約15萬片;當(dāng)前三大客戶為英偉達(dá)、博通和賽靈思,而MI300在四季度推出后,AMD或?qū)⒁慌e躋身前五大客戶。英偉達(dá)的訂單或也將外溢到聯(lián)電和Amkor。另外,CoWoS的瓶頸也許是來自日本的Tazmo、Shibaura等的封裝設(shè)備廠商,交貨周期往往需要6-8個(gè)月。配置建議:英偉達(dá)“買入”,TP650美元;AMD“買入”,TP1英偉達(dá)作為全球數(shù)據(jù)中心GPU龍頭,該業(yè)務(wù)已占總營收逾75%,為主要盈利和營收貢獻(xiàn),將充分受惠于臺(tái)積電先進(jìn)封裝產(chǎn)能明年翻倍,以及美國加息步入尾聲。游戲顯卡逐漸從挖礦和疫情間PC高基數(shù)影響中恢復(fù),疊加高期待新游戲帶動(dòng)。首次覆蓋英偉達(dá)(NVDAUS)給予“買入”,F(xiàn)Y24-25年動(dòng)態(tài)20倍PS,目標(biāo)價(jià)650美元。AMD數(shù)據(jù)中心業(yè)務(wù)CPU制程仍領(lǐng)先英特爾,MI300系列有力沖擊英偉達(dá),看好業(yè)務(wù)將受益主機(jī)“半代升級”;客戶端業(yè)務(wù)PC市場下滑收窄漸入佳境,首風(fēng)險(xiǎn)提示:AI技術(shù)落地和推進(jìn)不及預(yù)期、行業(yè)競爭激烈、中美競爭加劇。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀。人工智能風(fēng)繼續(xù)吹,AI芯片乘風(fēng)而起 4人工智能風(fēng)再起,產(chǎn)業(yè)發(fā)展空間廣闊 4看好整體AI芯片需求將伴隨著大模型和生成式AI的B端應(yīng)用落地而增加 4人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式始終是人工智能追求的終極形態(tài) 7我們處于AI的“iPhone”時(shí)刻嗎? 8生成式AI將帶動(dòng)云大廠加碼硬件基礎(chǔ)設(shè)施 9“一超多強(qiáng)”的AI芯片市場競爭格局 傳統(tǒng)芯片巨頭:英偉達(dá)在多方入局下能否繼續(xù)笑傲江湖? 12英偉達(dá)在推理端能否復(fù)制其在訓(xùn)練端的成功? 12英偉達(dá)的兩大護(hù)城河:高算力芯片和高粘性CUDA軟件生態(tài) 12先進(jìn)的網(wǎng)絡(luò)技術(shù)NVLink+NVSwitch,為吞吐量和可擴(kuò)展性帶來突破 13CUDA軟件生態(tài)的先發(fā)優(yōu)勢構(gòu)筑英偉達(dá)第二護(hù)城河 16生成式AI下較復(fù)雜的推理需求或?yàn)橛ミ_(dá)GPU賦新機(jī) 17英偉達(dá)SWOT分析 19傳統(tǒng)芯片巨頭:備受期待的突圍者AMD 20以AI為戰(zhàn)略首位,AMD突圍二戰(zhàn)能否凱旋? 20MI300A和GH200:CPU+GPUAI芯片架構(gòu)仿生人腦結(jié)構(gòu) 20ROCm生態(tài)圈會(huì)否成為AMD的“阿克琉斯之踵”?分而治之或可解困 24傳統(tǒng)芯片巨頭:多元布局的追趕者英特爾 27云計(jì)算和互聯(lián)網(wǎng)大廠:或許是傳統(tǒng)芯片廠商的最大競爭對手 32谷歌TPU:少數(shù)能與英偉達(dá)高算力GPU匹敵的AI芯片 32亞馬遜AWS:Trainium&Inferentia,訓(xùn)練推理雙管齊下 38微軟:“閉門造芯”Athena 40Meta:首個(gè)自研推理端芯片MTIA將于2025年問世 41異軍突起者:晶圓級芯片持續(xù)突破性能極限,內(nèi)存和傳輸成破局關(guān)鍵 43Cerebras:向晶圓級大尺寸芯片邁出第一步,但良率和有效運(yùn)行占比暫成疑 43Graphcore:BowIPU實(shí)現(xiàn)精細(xì)數(shù)據(jù)多指令并行 48特斯拉:Dojo超算為自動(dòng)駕駛而生,為公司四大全棧自研科技支柱之一 52晶圓級芯片跟傳統(tǒng)芯片的各項(xiàng)對比 55AI芯片產(chǎn)業(yè)鏈:聚焦兵家必爭之地CoWoS封裝 58臺(tái)積電大擴(kuò)CoWoS產(chǎn)能,供給緊張有望得解 58硅晶圓供應(yīng)商:臺(tái)積電的6家硅晶圓供應(yīng)商占全球總產(chǎn)能90%以上 59襯底/基板(Substrate揖斐電、景碩、欣興電子等 60HBM內(nèi)存:SK海力士、三星、美光,三足鼎立 61服務(wù)器相關(guān)供應(yīng)商:惠與、戴爾、聯(lián)想、美超微、廣達(dá)、緯創(chuàng)等 61AI不只是大模型,自動(dòng)駕駛芯片群雄逐鹿,誰能突圍? 63Mobileye:ADAS技術(shù)奠基者,“黑箱子模式”優(yōu)勢不再,轉(zhuǎn)型將面臨挑戰(zhàn) 65地平線:基于BPU架構(gòu)布局自動(dòng)駕駛生態(tài)追擊 67黑芝麻:第一家遞交港股18C上市文件的車載芯片股,華山對標(biāo)英偉達(dá)Orin,武當(dāng)實(shí)現(xiàn)跨域融合 70高通:可擴(kuò)展體系開展差異化競爭,對標(biāo)英偉達(dá)Thor打造跨域融合 71華為:邊緣端AI芯片賦能MDC計(jì)算平臺(tái) 72 73重點(diǎn)推薦:英偉達(dá)為AI芯片行業(yè)龍頭,AMD突圍有望迎來重估 75英偉達(dá):AI龍頭軟硬一體雙護(hù)城河(NVDAUS,買入,目標(biāo)價(jià):650.00美元) 75 76風(fēng)險(xiǎn)提示 78首次推薦公司 79英偉達(dá)(NVDAUS,買入,目標(biāo)價(jià):6 79超威半導(dǎo)體(AMDUS,買入,目標(biāo)價(jià):150.00美元) 125免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀。本輪人工智能浪潮由ChatGPT掀起,并以語言大模型(LargeLanguageModel,LLM)和生成式AI(GenerativeAI)應(yīng)用作為切入點(diǎn)。自谷歌在2017年發(fā)表至今,Transformer除了帶來像ChatGPT這樣的C端爆款產(chǎn)品外,其早已在自然語言處理、計(jì)算機(jī)視覺、自動(dòng)駕駛等領(lǐng)域里廣泛應(yīng)用。各中外科技企業(yè)持續(xù)加大對相關(guān)的投入,包括谷歌(GOOGLUS)、Meta(METAUS)、微軟(MSFTUS)、字節(jié)跳動(dòng)(未上市)、百度(BIDUUS)等海內(nèi)外一眾科技巨頭和初創(chuàng)企業(yè)均希望分一杯羹,其他非技術(shù)公司也不斷在人才、技術(shù)和資源方面進(jìn)行布局。根據(jù)BloombergIntelligence的預(yù)測數(shù)據(jù),到2032年,生成式AI在總體信息技術(shù)硬件、軟件、服務(wù)、廣告和游戲等支出中的占比或?qū)哪壳安坏?%的水平擴(kuò)大至12%。ChatGPT(ChatGenerativePre-trainedTransformer)自22年11月發(fā)布后就引起了全球關(guān)注,5天內(nèi)注冊用戶超100萬,僅兩個(gè)月后,月活躍用戶已達(dá)1億。ChatGPT將生成式AI在文本、圖像、視頻等領(lǐng)域的多模態(tài)應(yīng)用正式帶入C端大眾用戶的視野。然而,我們認(rèn)為,語言大模型若只是停留在C端應(yīng)用,提供給一些網(wǎng)民娛樂,其實(shí)意義并不大。我們更加認(rèn)為,生成式AI的發(fā)展必須要配合B端應(yīng)用的落地,才能成為真正可以改變世界的高端科技。目前,微軟已發(fā)布Microsoft365Copilot等生成式AI產(chǎn)品,作為率先發(fā)布的重磅商業(yè)化應(yīng)用。Copilot依托微軟龐大的用戶群體、產(chǎn)品生態(tài)及使用場景,有望開啟AI的B端應(yīng)用發(fā)展新里程,并帶動(dòng)微軟打開新的AI商業(yè)化空間。BloombergIntelligence預(yù)測,全球生成式AI下游軟件市場規(guī)模將在2032年擴(kuò)大至2799億美元,2022-2023年十年復(fù)合增速達(dá)到69%。1,4001,2001,0008006004002000生成式AI在總科技支出占比生成式AI在總科技支出占比1,3041,07989772854839911%12%30410%2179%671375%6%7%1423403%4%生成式AI收入20212223E24E25E26E27E28E29E30E31E32E30%25%20%15%10%5%0%資料來源:BloombergIntelligence、IDC、華泰研究生成式生成式AI項(xiàng)目202220222032E2032ECAGRCAGR專業(yè)智能助手$447$89,03570%代碼編寫、DevOps等$213$50,43073%工作負(fù)載基礎(chǔ)設(shè)施軟件$439$71,64566%藥物發(fā)現(xiàn)軟件$14$28,343113%網(wǎng)絡(luò)安全支出$9$13,946109%教育支出$370$26,50053%軟件軟件$1,493$1,493$279,899$279,89969%69%資料來源:BloombergIntelligence、IDC、華泰研究2022年開始,大模型的數(shù)量及參數(shù)量均呈指數(shù)級增長??傮w來說,我們認(rèn)為模型的數(shù)量和所需的訓(xùn)練數(shù)據(jù)才是對于算力要求的關(guān)鍵,因此,我們看好整體AI芯片的需求,將伴隨著大模型和生成式AI所支持的B端商業(yè)應(yīng)用落地而增加。自2018年OpenAI(未上市)發(fā)布了包含1.17億參數(shù)的第一代GPT(GenerativePre-trainedTransformer)模型以來,每一代GPT模型的迭代都伴隨著參數(shù)量的飛躍。一眾中外的科技巨頭們也不甘示弱,包括Google、Meta、百度等紛紛發(fā)布了PaLM、LaMDA、Llama、文心一言等為代表的大語言模型。2020年1月,OpenAI團(tuán)隊(duì)論文《ScalingLawsforNeuralLanguageModels》提出“縮放定律”(ScalingLaws即大模型表現(xiàn)伴隨模型參數(shù)量、數(shù)據(jù)集大小和計(jì)算量增長而增長,他們于2023年5月也再次強(qiáng)調(diào),目前縮放定律仍未出現(xiàn)瓶頸。但我們也看到,谷歌在今年5月的I/O大會(huì)里發(fā)布的新一代PaLM大模型,PaLM2,就是通過算法上的改進(jìn)達(dá)到訓(xùn)練數(shù)據(jù)增加為上一代PaLM(7800億tokens)的約5倍,達(dá)到3.6萬億個(gè)tokens,但參數(shù)量為3400億,小于PaLM的5400億。注:不同顏色代表不同模型種類資料來源:英偉達(dá)官網(wǎng)、華泰研究“大模型”通常指的是有大量參數(shù)的自我監(jiān)督和預(yù)訓(xùn)練模型,其背后的核心技術(shù)是Transformer架構(gòu),目前比較廣泛應(yīng)用于文本生成等自然語言處理領(lǐng)域。Transformer在2017年由谷歌大腦團(tuán)隊(duì)在論文《AttentionIsAllYouNeed》中提出。該架構(gòu)主要用于處理序列數(shù)據(jù),主要采用自注意力機(jī)制(self-attentionmechanism為序列中的每個(gè)元素賦予不同的權(quán)重,從而捕獲序列內(nèi)部的長距離依賴關(guān)系。在Transformer之前,深度學(xué)習(xí)模型更多是采用監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練,因此需要大量標(biāo)注的數(shù)據(jù)。相對來說,GPT模型的創(chuàng)新之處在于采用了接近無監(jiān)督學(xué)習(xí)(具體叫“自我監(jiān)督學(xué)習(xí)”,self-supervisedlearning)的預(yù)訓(xùn)練,加上少量有監(jiān)督的微調(diào)相結(jié)合。注:GPT-4參數(shù)及訓(xùn)練基礎(chǔ)設(shè)施數(shù)據(jù)來自semianalysis資料來源:OpenAI官網(wǎng)、福布斯官網(wǎng)、InfoQ官網(wǎng)、semianalysis官網(wǎng)、微軟官網(wǎng)、華泰研究資料來源:CSDN官網(wǎng)、華泰研究在文本生成、上下文語義理解、文章修訂及摘要總結(jié)等需要泛化能力的大語言模型中,Transformer架構(gòu)相對以往的CNN和RNN網(wǎng)絡(luò)結(jié)構(gòu)取得了較大的進(jìn)展。Transformer架構(gòu)突破了RNN(RecurrentNeuralNetwork)模型固定順序?qū)傩运鶐淼挠?jì)算限制,其通過自注意力機(jī)制,可以同時(shí)處理整個(gè)序列的所有元素,從而實(shí)現(xiàn)了高效的并行化,提高了計(jì)算速度。同時(shí),相比CNN(ConvolutionalNeuralNetwork)模型中伴隨距離增大,計(jì)算位置關(guān)聯(lián)所需操作將不斷增多,Transformer通過自注意力機(jī)制,可直接計(jì)算序列中任何兩個(gè)元素之間的關(guān)聯(lián),且通過權(quán)重顯示序列元素間的關(guān)系,從而為模型提供更為豐富的全局上下文信息,有效提高對復(fù)雜結(jié)構(gòu)及語義的理解。故Transformer被認(rèn)為與大部分白領(lǐng)工作相契合,在當(dāng)前人力成本較高及生產(chǎn)力急需提升的背景下,或?qū)㈤_始下沉至辦公、會(huì)計(jì)、法律、編程和醫(yī)療等各領(lǐng)域進(jìn)行結(jié)合。我們可將Transformer模型比作人類的右腦,在淺層關(guān)聯(lián)性上表現(xiàn)優(yōu)異,適用于需要?jiǎng)?chuàng)造性的生成式領(lǐng)域,但其仍然需要加強(qiáng)左腦的邏輯判斷能力。資料來源:Devlin,Jacob,etal."Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding."arXivpreprintarXiv:1810.04805(2018).、OpenAl、KDnuggets、斯擔(dān)福大學(xué)官網(wǎng)、華泰研究30,00025,00020,00015,00010,0005,000024,60024,60020,48911,7005,1101,22021,400201820192020202120222023注:2023年的數(shù)據(jù)截止至7月資料來源:谷歌學(xué)術(shù)、華泰研究資料來源:StateofAIreport、華泰研究人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式始終是人工智能追求的終極形態(tài)類比人類大腦,左腦主要負(fù)責(zé)對信息邏輯的處理,如串行運(yùn)算、數(shù)字和算術(shù)、分析思維、理解、分類、整理等,而右腦負(fù)責(zé)并行計(jì)算、多模態(tài)、創(chuàng)造性思維和想象等。因此,左右腦從功能上分別代表CPU和GPU,對比人類可實(shí)現(xiàn)左右腦協(xié)同工作,整體調(diào)動(dòng)神經(jīng)網(wǎng)絡(luò),將為AI的最終愿景。早在2011年,AMD產(chǎn)品構(gòu)想中就以CPU和GPU分別類比人類左右腦,并基于此提出了CPU+GPU的異構(gòu)產(chǎn)品策略。(詳見AMD部分)目前AMD的MI300A和英偉達(dá)的GraceHopper(GH200)均為CPU+GPU的異構(gòu)集成。GPU的算力高并針對并行計(jì)算,但須由CPU進(jìn)行控制調(diào)用,發(fā)布指令。在AI訓(xùn)練端,CPU可負(fù)責(zé)控制及發(fā)出指令,指示GPU處理數(shù)據(jù)和完成復(fù)雜的浮點(diǎn)運(yùn)算(如矩陣運(yùn)算)。在面對不同模態(tài)數(shù)據(jù)的推理時(shí),我們認(rèn)為,CPU與GPU的分工也各有不同,因此,同時(shí)部署CPU和GPU能提供更大的運(yùn)算支撐。例如,在處理語音、語言和文本數(shù)據(jù)的推理時(shí),AI模型需逐個(gè)識別目標(biāo)文字,計(jì)算有序,因此或更適合使用擅長串行運(yùn)算的CPU進(jìn)行運(yùn)算支持;但在處理圖像、視頻等數(shù)據(jù)的推理時(shí)(對比人類的操作,每一個(gè)像素是同時(shí)進(jìn)入眼睛需要大規(guī)模并行運(yùn)算,或更適宜由GPU負(fù)責(zé),例如英偉達(dá)L4GPU可將AI視頻性能提高120倍,據(jù)英偉達(dá)測試,L4與基于CPU的傳統(tǒng)基礎(chǔ)設(shè)施相比能源效率提高99%。資料來源:HariR.Frombrain–environmentconnectionstotemporaldynamicsandsocialinteraction:principlesofhumanbrainfunction[J].Neuron,2017,94(5):1033-1039.、BrainFacts、華泰研究AI推理市場規(guī)模大,但對算力要求比訓(xùn)練較低,因此我們認(rèn)為各類芯片的使用將百花齊放,在大模型和多模態(tài)趨勢下GPU或能奪份額。但目前推理端還是以CPU主導(dǎo),多方涌入下競爭愈發(fā)激烈。值得一提的是,數(shù)據(jù)中心里擁有各類不同的芯片,而不同的AI工作負(fù)載應(yīng)該在哪一片芯片上運(yùn)行,將取決于以上提到的適配度以及性價(jià)比。因此,各類芯片也有其不同的優(yōu)勢。資料來源:CSDN、谷歌官網(wǎng)、VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.、華泰研究人工智能的概念可以追溯到上世紀(jì)五六十年代。很多我們現(xiàn)在熟悉的算法,如神經(jīng)網(wǎng)絡(luò),在20-30年前已經(jīng)存在,但由于缺乏算力和數(shù)據(jù),因此無法有效地運(yùn)行。隨著GPU被應(yīng)用到AI、云計(jì)算的普及和海量數(shù)據(jù)的產(chǎn)生和存儲(chǔ),AI技術(shù)才得以快速發(fā)展和應(yīng)用。對于“現(xiàn)在是AI的iPhone時(shí)刻”的觀點(diǎn),我們更傾向于認(rèn)為,這是描述跟GPT相關(guān)的生成式AI開始應(yīng)用于ToB端及解放生產(chǎn)力的重要突破。至于在ToC端,AI技術(shù)其實(shí)早已有眾多應(yīng)用融入了我們的生活,如智能手機(jī)中的語音助手Siri和人臉識別等功能。資料來源:太平洋電腦網(wǎng)、蘋果官網(wǎng)、英偉達(dá)官網(wǎng)、蘋果派、OpenAI官網(wǎng)、各公司公告、華泰研究我們認(rèn)為,硬件設(shè)備的規(guī)模和性能是AI大模型時(shí)代的必然要求。鑒于目前生成式AI主要以大參數(shù)模型路徑實(shí)行,隨著模型數(shù)量和所需要處理的數(shù)據(jù)量增長,其訓(xùn)練與推理均需要大量的計(jì)算能力與存儲(chǔ)資源,故生成式AI應(yīng)用的蓬勃發(fā)展將帶動(dòng)高算力AI芯片以及云計(jì)算的需求增長。BloombergIntelligence及IDC數(shù)據(jù)顯示,到2024年,AI訓(xùn)練和推理硬件市場規(guī)模將達(dá)930億美元,而到2032年將逾6000億美元。100%90%80%70%60%50%40%30%20%10%0%訓(xùn)練推理20222023202420252026202720282029203020312032資料來源:BloombergIntelligence、IDC、華泰研究5004003002001000474訓(xùn)練474訓(xùn)練推理360283224836442493496774620222023202420252026202720282029203020312032資料來源:BloombergIntelligence、IDC、華泰研究140%120%100%80%60%40%20%0%-10%-20%云大廠和互聯(lián)網(wǎng)巨頭預(yù)計(jì)將繼續(xù)加大資本開支,AI硬件為重點(diǎn)領(lǐng)域。谷歌、微軟、亞馬遜以及Meta在二季度業(yè)績說明會(huì)中提到:140%120%100%80%60%40%20%0%-10%-20%?微軟FY23Q4:資本開支(不含融資租賃)89.43億美元,同比增加30.16%,計(jì)劃持續(xù)加大數(shù)據(jù)中心、CPU和GPU等投入;?谷歌232Q:資本開支環(huán)比增長10%至69億美元,主要投放在服務(wù)器以及AI大模型計(jì)算領(lǐng)域,增幅低于彭博一致預(yù)期主因數(shù)據(jù)中心建設(shè)項(xiàng)目延遲,但公司預(yù)計(jì)對技術(shù)基礎(chǔ)設(shè)施的投資將在2023下半年增加;?亞馬遜23Q2:資本開支(含融資租賃)為114.55億美元,同比下跌27%,雖受逐漸下滑的運(yùn)輸投入影響,公司預(yù)計(jì)2023全年資本開支同比下滑至略高于500億美元的水平,但仍將繼續(xù)增加對AI和大語言模型的投入以滿足客戶需求;?Meta23Q2:資本開支(不含融資租賃)為61.34億美元,同比下跌19%,主要鑒于非AI服務(wù)器費(fèi)用的減少,以及部分項(xiàng)目和設(shè)備交付的延誤將轉(zhuǎn)入2024年,公司預(yù)計(jì)2024年資本開支將伴隨數(shù)據(jù)中心、服務(wù)器及人工智能方面投資的推進(jìn)而增加??傮w來看,2023上半年,以谷歌、微軟及亞馬遜及Meta為代表的互聯(lián)網(wǎng)巨頭在資本開支方面,雖受到項(xiàng)目延期或宏觀與其他業(yè)務(wù)規(guī)劃等因素?cái)_動(dòng),但在AI相關(guān)的資本開支方面正逐漸加大。展望2024年,AI基礎(chǔ)設(shè)施將是重點(diǎn)投入領(lǐng)域。故我們認(rèn)為頭部云廠商和互聯(lián)網(wǎng)巨頭加大AI領(lǐng)域資本開支將進(jìn)一步支撐AI的產(chǎn)業(yè)趨勢。我們認(rèn)為,2022年以來,美聯(lián)儲(chǔ)穩(wěn)步提高利率導(dǎo)致企業(yè)削減數(shù)據(jù)中心支出,后續(xù)美聯(lián)儲(chǔ)或?qū)⑼V辜酉?,疊加AI需求增長,有望提振科技巨頭的資本開支,將持續(xù)帶動(dòng)AI芯片等基礎(chǔ)硬件設(shè)施放量。45040035030025020015010050MicrosoftMetaAmazon(含租賃)Google同比合計(jì)-11%資料來源:各公司官網(wǎng)、華泰研究“一超多強(qiáng)”的AI芯片市場競爭格局在人工智能的訓(xùn)練端(training我們認(rèn)為英偉達(dá)的GPU憑著高算力為門檻,一直以來都是訓(xùn)練端的首選。但隨著人工智能應(yīng)用市場的不斷擴(kuò)大,AMDMI300系列的GPU、云計(jì)算廠商自研專用芯片、以及大尺寸晶圓級芯片也開始異軍突起。推理端對算力要求較訓(xùn)練端低,目前推理芯片市場百花齊放,各類芯片均據(jù)有一席之地。我們認(rèn)為,推理端和訓(xùn)練端一樣,傳統(tǒng)芯片廠商也將面臨云計(jì)算廠商和AI芯片初創(chuàng)企業(yè)的挑戰(zhàn)。AMD在23Q1財(cái)報(bào)會(huì)議上表示,AMD已將人工智能列為戰(zhàn)略重點(diǎn)的首位,同時(shí)推出新產(chǎn)品MI300系列,在制程、架構(gòu)及算力等多方面向英偉達(dá)同類產(chǎn)品看齊。另外,作為英偉達(dá)客戶的云計(jì)算大廠也陸續(xù)發(fā)力自研專用芯片。谷歌的TPU(TensorProcessingUnit)專為神2020年推出的TPUv4,在多種機(jī)器學(xué)習(xí)框架模型上已與英偉達(dá)的A100可比。亞馬遜AWS自己造芯早已有跡可循,2018年開發(fā)了基于ARM的服務(wù)器CPUGraviton,也為AI推理端自研專用芯片Inferentia(2018年末推出第一代,目前已發(fā)展到第二代)和AI訓(xùn)練端定制芯片Trainium(2020年末推出)。對比基于GPU的實(shí)例,Trainium速度能提升140%,成本能降低70%。據(jù)2023年4月18日美國科技媒體TheInformation報(bào)道,微軟也正在閉門造芯,研發(fā)支撐AIGC訓(xùn)練和運(yùn)行的專用芯片Athena(雅典娜希望進(jìn)一步降低開發(fā)AI的成本。除了傳統(tǒng)芯片龍頭和云計(jì)算大廠之外,我們也發(fā)現(xiàn)一些新興初創(chuàng)AI芯片企業(yè)(如Cerebras、Graphcore等以及芯片行業(yè)以外的企業(yè),包括特斯拉等,正在異軍突起,試圖在芯片設(shè)計(jì)上另辟蹊徑,通過大尺寸晶圓級芯片的技術(shù)路線,在持續(xù)上升的算力、傳輸和內(nèi)存需求市場中搶占份額。短期來看,我們認(rèn)為,使用先進(jìn)封裝技術(shù)的GPU相較晶圓級芯片或是更優(yōu)選擇,但長期來看,晶圓級芯片的瓶頸若能突破,也將成為傳統(tǒng)技術(shù)路徑的有力挑戰(zhàn)訓(xùn)練端訓(xùn)練端通用性強(qiáng),但較難適應(yīng)于人工智能時(shí)代大數(shù)據(jù)并行計(jì)算工作。通用性強(qiáng),多維計(jì)算及大規(guī)模并行計(jì)算架構(gòu),適合深度學(xué)習(xí)需要;在訓(xùn)練端是第一選擇-針對特定框架進(jìn)行深度優(yōu)化定固定成本也較高推理端需要大量空間去放置存儲(chǔ)單元用于邏輯控制。英偉達(dá)從18年開始通過T4芯片等布局推理端到邊緣計(jì)算;對算力要求較訓(xùn)練端要低多以加速器形式跟CPU一起搭載;依靠可編程性,適用于開發(fā)周期較短的產(chǎn)品,以及開發(fā)試錯(cuò)階段等;較成熟的量產(chǎn)設(shè)備多采用ASIC若特定領(lǐng)域產(chǎn)生大規(guī)模需求,在大批量生產(chǎn)下固定成本可有效給攤分;能耗也較低代表廠商Intel/AMDNVIDIA/AMDAltera(Intel)/Xilinx(AMD)Google的TPUAWSTranium/Inferentia資料來源:nextplatform官網(wǎng)、HUAWEI、華泰研究英偉達(dá)在推理端能否復(fù)制其在訓(xùn)練端的成功?英偉達(dá)的GPU雖在AI訓(xùn)練端屬不二之選,對比市場同類訓(xùn)練產(chǎn)品也具有顯著優(yōu)勢。然而,推理端的門檻相對較低,且應(yīng)用場景和需求更為多元,目前各類芯片都在此領(lǐng)域獲得一席之地,因此AI推理方面英偉達(dá)仍面臨著激烈競爭。從發(fā)展歷程來看,傳統(tǒng)推理端主要依賴CPU去處理相對簡單和對算力要求較低的推理任務(wù)。不過,目前AI模型的規(guī)模和復(fù)雜度跟過去相比已提升了不少,隨著更多工作負(fù)載將逐漸納入到推理領(lǐng)域,因此對于推理算力的要求也會(huì)越來越高,或?qū)⒃谝欢ǔ潭壬蠋?dòng)更多GPU在推理領(lǐng)域的應(yīng)用。但我們需強(qiáng)調(diào),推理所需要的算力本身比訓(xùn)練所需要的算力低,因此英偉達(dá)的高算力在推理端不一定像其在訓(xùn)練端般擁有明顯優(yōu)勢。另外,數(shù)據(jù)中心里擁有各類不同的芯片,而不同的AI工作負(fù)載應(yīng)該在哪一片芯片上運(yùn)行,將取決于適配度以及性價(jià)比。因此,各類芯片也有其不同的優(yōu)勢。在這領(lǐng)域里英偉達(dá)的高性能推理芯片正面對著各種競爭對手,除了CPU之外,也包括AMD的GPU、英偉達(dá)的GPU(包括老款)、FPGA和ASIC等。英偉達(dá)的兩大護(hù)城河:高算力芯片和高粘性CUDA軟件生態(tài)我們認(rèn)為,英偉達(dá)憑著高算力硬件和高粘性軟件生態(tài)兩大護(hù)城河,是人工智能訓(xùn)練端的不二之選。根據(jù)不同芯片在AI論文中的引用數(shù)量可知,英偉達(dá)的芯片在AI研究論文中最受歡迎,其產(chǎn)品的使用率是ASIC的131倍,是Graphcore(未上市)、Habana(給Intel收購了)、Cerebras(未上市)、SambaNova(未上市)和寒武紀(jì)(688256CH)五家總和的90倍,是谷歌TPU的78倍,是FPGA的23倍。一般來說,在人工智能領(lǐng)域,新模型的推出都會(huì)發(fā)表相關(guān)論文便于信息交流與學(xué)術(shù)合作,英偉達(dá)在人工智能相關(guān)的論文中遙遙領(lǐng)先的引用數(shù)量,也反映了新算法需采用英偉達(dá)GPU的必要性,以及其在學(xué)術(shù)界長期以來的重要地位和影響力。注:Big5startups是指Graphcore,Habana,Cerebras,SambaNova和寒武紀(jì)五家初創(chuàng)芯片企業(yè),其中寒武紀(jì)為中國企業(yè);Habana在2019年被Intel收購。資料來源:ZetaAlphaanalysis、華泰研究4.7%95.1%AMD資料來源:IDC、華泰研究英偉達(dá)持續(xù)迭代高性能計(jì)算芯片,在產(chǎn)品工藝、計(jì)算能力和存儲(chǔ)帶寬等不斷創(chuàng)新。面向高性能計(jì)算和深度學(xué)習(xí)場景,英偉達(dá)基于其芯片架構(gòu),打造了一系列支持提升張量核心和稀疏矩陣計(jì)算等能力的GPU產(chǎn)品。2023年,英偉達(dá)已不滿足于單GPU的更新?lián)Q代,重磅推出結(jié)合GraceCPU與HopperGPU的GH200超級芯片,實(shí)現(xiàn)了高達(dá)900GB/s的總帶寬,加速大規(guī)模AI和HPC應(yīng)用計(jì)算。在一年后的SIGGRAPH上,英偉達(dá)的AI芯片再迎升級,推出了全球首次采用HBM3e內(nèi)存的GH200超級芯片。該芯片的帶寬高達(dá)每秒5TB并能提供141GB的內(nèi)存容量,適用于復(fù)雜的生成式人工智能工作負(fù)載,如大型語言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫等。產(chǎn)品名稱英偉達(dá)產(chǎn)品名稱A100A100PCIe|SXMH100PCIe|SXM|NVLL40SGH200(HBM3)GH200(HBM3e)發(fā)布時(shí)間發(fā)布時(shí)間2020.62022.32023.82023.52023.8FP16:312|624FP32:FP16:312|624FP32:19.5FP64:19.5峰值算力(TFLOPS)FP8:3026|3958|7916FP16:1513|1979|3958FP32:51|67|134FP16:733FP32:91.6FP64:51|64|134工藝制程TSMC7nmTSMC4nmTSMCTSMC4nmTSMC4nmTSMC4nm芯片面積826mm2814mm2---晶體管數(shù)(B)548076.3200--內(nèi)存容量(GB)80GB(HBM2e)80|80|188(HBM3)48GB(GDDR6)96(HBM3)141(HBM3e)內(nèi)存帶寬1935|2039GB/s2|3.35TB/s|7.8TB/s864GB/s<=4TB/s55TB/sInterconnectNVLink600GB/sNVLink600|900|600GB/s16LinksPCIeGen464GB/sNVLink900GB/sNVLink900GB/sTDP(W)300300|400300-350300-350|700|2x350-400AMD350350450-1000谷歌450450-1000英特爾HabanaGaudi2產(chǎn)品名稱MI250XMI300AMI300XTPUv4發(fā)布時(shí)間2021.112023.12023.62021.52022.52022.5峰值算力(TFLOPS)FP16:383FP32/64:47.9FP32/64Matrix:95.7--Bf16:275-工藝制程TSMC6nmTSMC5nmTSMC5nmTSMC7nmTSMCTSMC7nm芯片面積724mm21017mm21017mm2780mm2-晶體管數(shù)(B)5831*--內(nèi)存容量(GB)128(HBM2e)-128(HBM3)32(HBM2)96(HBM2E)內(nèi)存帶寬3.2TB/s-5.2TB/s1200GB/s2.452.45TB/sInterconnectInfinityFabric>=500GB/sInfinityFabric800GB/sInfinityFabric896GB/s3DtorusRDMA(RoCEv2)100GB/sTDP(W)500600-600600資料來源:英偉達(dá)官網(wǎng)、AMD官網(wǎng)、谷歌官網(wǎng)、habana官網(wǎng)、ANANDTECH、semianalysis、tom’sHardware、TechPowerUp、THENEXTPLATFORM、華泰研究資料來源:福布斯官網(wǎng)、華泰研究先進(jìn)的網(wǎng)絡(luò)技術(shù)NVLink+NVSwitch,為吞吐量和可擴(kuò)展性帶來突破NVLink+NVSwitch,英偉達(dá)先進(jìn)的網(wǎng)絡(luò)技術(shù)為吞吐量和可擴(kuò)展性帶來突破。大規(guī)模的計(jì)算負(fù)載需要實(shí)現(xiàn)多節(jié)點(diǎn)連接。在2023年5月29日舉辦的COMPUTEX大會(huì)上,英偉達(dá)正式發(fā)布NVIDIADGXGH200超級計(jì)算系統(tǒng)。該系統(tǒng)通過NVLink互連技術(shù)及NVLinkSwitch串聯(lián)32臺(tái)由8塊GH200超級芯片(總計(jì)256塊組成了一個(gè)144TB內(nèi)存及1exaFLOPS=1000petaFLOPS算力的超級計(jì)算系統(tǒng)。大規(guī)模的共享內(nèi)存解決了AI大模型訓(xùn)練的關(guān)鍵瓶頸,GoogleCloud、Meta與微軟將是其首批用戶。NVLink與NVSwitch相結(jié)合實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)間通信拓展和高速互聯(lián),使大規(guī)模并行處理成為可能,是支撐英偉達(dá)GPU系統(tǒng)實(shí)現(xiàn)高速通信的基石。資料來源:英偉達(dá)官網(wǎng)、華泰研究DGXH100DGXGH200GPUandCPU8xNVIDIAH100TensorCoreGPUs+DualIntel?Xeon?Platinum8480CProcessors256xNVIDIAGraceHopperSuperchips(eachGraceHopperSuperchipincludesGraceArm?CPU+H100TensorCoreGPU)CPUCores112Corestotal,2.00GHz(Base),18,432Arm?NeoverseV2CoreswithSVE24X128b3.80GHz(MaxBoost)GPUmemory640GB144TBPerformance(FP8)32petaFLOPS1exaFLOPSNVIDIA?NVSwitch4x96xL1NVIDIANVLinkSwitches36xL2NVIDIANVLinkSwitchesNetworking4xOSFPportsserving8xsingle-portNVIDIAConnectX-7VPI>Upto400Gb/sInfiniBand/Ethernet2xdual-portQSFP112NVIDIAConnectX-7VPI>Upto400Gb/sInfiniBand/Ethernet256xOSFPsingle-portNVIDIAConnectX?-7VPIwith400Gb/sInfiniBand256xdual-portNVIDIABlueField?-3VPIwith200Gb/sInfiniBandandEthernet24xNVIDIAQuantum-2QM9700InfiniBandSwitches20xNVIDIASpectrum?SN2201EthernetSwitches22xNVIDIASpectrumSN3700EthernetSwitchesManagementnetwork10Gb/sonboardNICwithRJ45100Gb/sEthernetNICHostbaseboardmanagementcontroller(BMC)withRJ45Hostbaseboardmanagementcontroller(BMC)withRJ45SoftwareNVIDIAAIEnterprise(optimizedAIsoftware)NVIDIABaseCommand(orchestration,scheduling,andclustermanagement)DGXOS/Ubuntu/RedHatEnterpriseLinux/Rocky(operatingsystem)SupportComeswith3-yearbusiness-standardhardwareandsoftwaresupport資料來源:英偉達(dá)官網(wǎng)、華泰研究英偉達(dá)獨(dú)家的NVLink網(wǎng)絡(luò)連接技術(shù),解決了數(shù)據(jù)傳輸帶寬瓶頸。NVLink是英偉達(dá)針對GPU加速計(jì)算而開發(fā)的高速互連技術(shù),自2016年推出后已發(fā)展至第四代。NVLink能提供比PCIe更大的帶寬,滿足AI工作負(fù)載大規(guī)模的傳輸需求。傳統(tǒng)的PCIe技術(shù)下,每個(gè)設(shè)備擁有專用的點(diǎn)對點(diǎn)連接,對于運(yùn)行大規(guī)模并行功能和移動(dòng)大量數(shù)據(jù)的CPU和GPU往往存在性能瓶頸。為了構(gòu)建滿足人工智能等發(fā)展需求的端到端計(jì)算平臺(tái),英偉達(dá)推出的NVLink技術(shù),為CPU、GPU與系統(tǒng)其他部分之間提供高帶寬的連接路徑,也允許多個(gè)GPU通過高速互連直接通信,從而實(shí)現(xiàn)GPU之間可用內(nèi)存的組合和訪問。NVLink2NVLink3NVLink4DSR數(shù)據(jù)信號速率(Gbps)2550單鏈路的通道數(shù)842單鏈路的單向帶寬(GB/s)252525單鏈路總帶寬(GB/s)505050總鏈路數(shù)6總帶寬(GB/s)300600900推出年份201620172020資料來源:英偉達(dá)官網(wǎng)、ICspec官網(wǎng)、華泰研究NVLink4的總帶寬可達(dá)每秒900GB/s,為PCIe5.0總線帶寬的7倍,也遠(yuǎn)高于下一代PCIe6.0的256GB/s速率,能滿足AI和HPC持續(xù)增長的對多節(jié)點(diǎn)、多GPU系統(tǒng)的計(jì)算需求,為深度學(xué)習(xí)訓(xùn)練提供了更大的延展空間。此外,使用NVLink技術(shù)的設(shè)備有多個(gè)路徑可供選擇,和共享中央集線器的PCIe相比,加快了系統(tǒng)的運(yùn)行速度,提升了數(shù)據(jù)流和總系統(tǒng)吞吐PCIe標(biāo)準(zhǔn)單通道數(shù)據(jù)傳輸速率(GT/s)編碼x16帶寬(GB/s)標(biāo)準(zhǔn)批準(zhǔn)年份2.58b/10b820032.x58b/10b20073.x8128b/130b3220104.0128b/130b6320175.032128b/130b20196.064PAM4/FLIT2562022資料來源:WCCFtech官網(wǎng)、Rambus官網(wǎng)、華泰研究NVSwitch是英偉達(dá)的節(jié)點(diǎn)交換架構(gòu),通過連接多個(gè)NVLink,在單節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多GPU的拓展。NVSwitch在2018年隨第二代NVLink一起推出,將多個(gè)NVLink加以整合,實(shí)現(xiàn)多對多的GPU通信,進(jìn)一步提高系統(tǒng)的可拓展性。最新的第三代NVSwitch采用臺(tái)積電4N工藝打造,能在單個(gè)服務(wù)器節(jié)點(diǎn)中支持8到16個(gè)完全鏈接的GPU,支持以900GB/s的速度互連每個(gè)GPU,保障它們之間的完整點(diǎn)對點(diǎn)通信。資料來源:英偉達(dá)官網(wǎng)、ICspec官網(wǎng)、華泰研究第一代第二代第三代直接連接的GPU數(shù)量/節(jié)點(diǎn)數(shù)量最多8個(gè)最多8個(gè)最多8個(gè)NVSwitchGPU-to-GPU帶寬300GB/s600GB/s900GB/s總聚合帶寬2.4TB/s4.8TB/s7.2TB/s支持的NVIDIA架構(gòu)NVIDIAVoltaarchitectureNVIDIAAmperearchitectureNVIDIAHopperarchitecture資料來源:英偉達(dá)官網(wǎng)、華泰研究PCIExpress→NVLink→NVLink+NVSwitch的演變歷程體現(xiàn)了英偉達(dá)對通信效率和擴(kuò)展性的不斷追求。隨著深度學(xué)習(xí)算法的復(fù)雜化和規(guī)模的擴(kuò)大,權(quán)重、梯度和偏差的同步與交換對通信延遲和高帶寬提出了更高的要求。PCIe在原始帶寬、延遲以及緩存一致性等方面限制了GPU之間大規(guī)模的組合和連接,于高性能計(jì)算和數(shù)據(jù)中心里適用性較低。NVLink和NVSwitch的推出解決了多個(gè)GPU大規(guī)模集群的傳輸,實(shí)現(xiàn)更快和更可擴(kuò)展的計(jì)算系統(tǒng)。資料來源:英偉達(dá)官網(wǎng)、華泰研究資料來源:英偉達(dá)官網(wǎng)、華泰研究CUDA軟件生態(tài)的先發(fā)優(yōu)勢構(gòu)筑英偉達(dá)第二護(hù)城河CUDA工具包包括一系列的編程工具、加速庫和框架,可用于協(xié)助開發(fā)人員更為便捷地進(jìn)行GPU編程和并行計(jì)算,其核心競爭力主要在于其硬件集成、完善的社區(qū)資源和廣泛的應(yīng)用支持形成的正循環(huán)。2023COMPUTEX大會(huì)上,英偉達(dá)CEO黃仁勛表示,CUDA擁有超過400萬開發(fā)人員和超過3000個(gè)應(yīng)用程序。受益于英偉達(dá)CUDA的先發(fā)優(yōu)勢與長期耕耘,搭配其新手友好的安裝與編程體驗(yàn),CUDA龐大的用戶群體致使其搭建起由大量專業(yè)開發(fā)者與領(lǐng)域?qū)<医M成的開發(fā)者社區(qū)。CUDA也涵蓋各類計(jì)算應(yīng)用的代碼庫資源,這無疑為CUDA的學(xué)習(xí)和應(yīng)用提供進(jìn)一步支持。截止2023年5月,CUDA下載量已累計(jì)超過4000萬次,且僅去年一年便達(dá)到2500萬次。資料來源:英偉達(dá)官網(wǎng)、華泰研究備注:*表示Cumulative資料來源:CES2023、華泰研究資料來源:英偉達(dá)官網(wǎng)、華泰研究同類對比下,CUDA軟件生態(tài)豐富成熟,在應(yīng)用廣泛性、市場份額和開發(fā)者支持方面均較為突出。由英偉達(dá)在2007年推出的編程平臺(tái)CUDA先發(fā)優(yōu)勢較明顯,歷年來大量機(jī)器學(xué)習(xí)算法工程師均使用。與CUDA生態(tài)系統(tǒng)對標(biāo)的平臺(tái)方面,OpenCL雖在通用性上更勝一籌,但其缺少針對并行計(jì)算的相關(guān)優(yōu)化及深度學(xué)習(xí)相關(guān)功能庫較少;而AMDROCm發(fā)布時(shí)間較晚,加上此前長期只支持Linux導(dǎo)致跨平臺(tái)能力不足,且對比CUDA其在科學(xué)計(jì)算與深度學(xué)習(xí)領(lǐng)域的功能庫、開發(fā)工具和應(yīng)用支持的完善方面仍有改進(jìn)空間。目前,雖有眾(Heterogeneous-ComputingInterfaceforPortability)兼容,但CUDA并未開源,因此100%兼容CUDA較為被動(dòng)。我們認(rèn)為,CUDA生態(tài)憑借穩(wěn)定的先發(fā)優(yōu)勢與用戶粘性,將持續(xù)為英偉達(dá)的軟件生態(tài)圈壁壘。CUDAROCmOpenCL發(fā)布時(shí)間2007年2016年2008年硬件支持支持2006年以來所有的英偉達(dá)GPU較多支持AMD高端GPU系列,自2023年6月29日更新的ROCm5.6.0版本開始逐步向消費(fèi)級GPU拓展可移植到NVIDIA、AMD、Intel等等各種其它硬件設(shè)備,包括FPGA和ASIC除了供應(yīng)商特定的擴(kuò)展操作系統(tǒng)Linux和Windows支持Linux,自2023年6月29日更新的ROCm5.6.0版本開始在Windows支持部分AMD消費(fèi)級GPU支持包括Linux、Windows以及macOS在內(nèi)的幾乎所有的操作系統(tǒng)功能庫擁有廣泛的高性能庫,覆蓋廣泛的終端應(yīng)用場景,包括資源受限的物聯(lián)網(wǎng)設(shè)備、自動(dòng)駕駛及超級計(jì)算機(jī)等領(lǐng)域:九大部分組成的合作伙伴庫、八大部分組成的數(shù)學(xué)庫、五大部分組成的深度學(xué)習(xí)庫、四大部分組成的圖像和視頻庫、兩大部分組成的通訊庫、并行算法庫以及計(jì)算光刻庫僅包括CUDA庫中的一部分:由LinearAlgebraLibraries線性代數(shù)庫、FastFourierTransforms快速傅里葉變換和RandomNumbers隨機(jī)數(shù)三部分組成的數(shù)學(xué)庫;rocPRIM、rocThrust以及hipCUB三部分組成的C++原始庫;MIOpen、ComposableKernel和MIGraphX三大部分組成的AI庫和以RCCL構(gòu)成的通訊庫OpenCL作為通用平臺(tái),并行計(jì)算能力遠(yuǎn)不如CUDA(并行編程模型并行計(jì)算能力只達(dá)到后者的1/10到1/200不等,目前很少用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí),因此可用的相關(guān)庫很少技術(shù)細(xì)節(jié)一種使用CUDA關(guān)鍵字實(shí)現(xiàn)并行化的平臺(tái)和編程模型;CUDA提供C/C++語言擴(kuò)展和API,用于編程和管理GPU。類似于NVIDIA的CUDA,ROCm支持多種編程語言、編譯器、庫和工具,目前主要通過異構(gòu)計(jì)算可移植接口(HIP)這種C++方言來簡化CUDA應(yīng)用程序到可移植C++代碼的轉(zhuǎn)換。HIP提供了C風(fēng)格的API和C++的內(nèi)核語言。不支持使用C++編寫代碼,而是提供了類C語言編程工作環(huán)境資料來源:CUDA官網(wǎng)、run:ai官網(wǎng)、phoronix、incredibuild、華泰研究生成式AI下較復(fù)雜的推理需求或?yàn)橛ミ_(dá)GPU賦新機(jī)長期以來,AI推理市場一直由CPU主導(dǎo)。根據(jù)Thenextplatform在2023年4月5日的報(bào)道,數(shù)據(jù)中心70%的推理在IntelXeonCPU上運(yùn)行。主要鑒于過去的AI推理任務(wù)較為簡單,以通用AI計(jì)算為主,如個(gè)性化廣告、搜索推薦、中小型模型等應(yīng)用,這些基礎(chǔ)的推理任務(wù)CPU便可勝任。此外,CPU在AI領(lǐng)域的應(yīng)用較早,云廠商已建立了大量的基礎(chǔ)設(shè)施和工具來支持,更換及重新配置的成本或也是考慮因素之一。面對不同的AI負(fù)載任務(wù),GPU、CPU和ASIC或分別具有性能和成本優(yōu)勢。GPU擅長并行計(jì)算,特別適用于深度學(xué)習(xí)模型中的大規(guī)模矩陣計(jì)算。相比之下,CPU更擅長串行計(jì)算。因此,面對不同的AI負(fù)載,不同種類的芯片或能發(fā)揮不同的性能和成本優(yōu)勢。雖然GPU單個(gè)成本高于CPU,但在處理深度學(xué)習(xí)推理任務(wù)時(shí),特別面向較復(fù)雜和多模態(tài)的AI負(fù)載,GPU或能提供更高的性能和效率,從而實(shí)現(xiàn)更快的推理速度和更高的吞吐量,節(jié)省了部署和運(yùn)行成本。在2018年9月,微軟發(fā)表了一篇GPU與CPU在深度學(xué)習(xí)模型推理部署對比的博客:測試中所采用的3節(jié)點(diǎn)GPU集群與5節(jié)點(diǎn)CPU集群的成本大致相同,在該測試所用的模型和框架中,3節(jié)點(diǎn)GPU集群的吞吐量優(yōu)于5節(jié)點(diǎn)CPU集群。140120100806040200KerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasNetMobileResnet50MobileNetV25CPUKerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasNetMobileResnet50MobileNetV2資料來源:微軟官網(wǎng),華泰研究我們認(rèn)為隨著生成式AI和大模型的興起,高復(fù)雜度的推理任務(wù)變得更加普遍,或?qū)⑼苿?dòng)GPU在推理端的需求。對于較大的模型和較復(fù)雜的計(jì)算任務(wù),CPU單獨(dú)來說或不足以滿足,未來這部分的推理應(yīng)用或?qū)腃PU轉(zhuǎn)移至CPU+加速器(ASIC或FPGA)或者CPU轉(zhuǎn)移至GPU。英偉達(dá)CEO黃仁勛也在8月8日的SIGGRAPH2023表示,在1億美元的預(yù)算下,數(shù)據(jù)中心可以采購2500塊GH200進(jìn)行推理,功耗為3MW,能實(shí)現(xiàn)同等預(yù)算下x86CPU方案12倍的AI推理性能和20倍的能效。資料來源:Intel官網(wǎng),華泰研究針對推理市場,英偉達(dá)推出了一系列的新品。英偉達(dá)的推理平臺(tái)GPU產(chǎn)品組合包括用于AI視頻的NVIDIAL4、用于圖像生成的NVIDIAL40、用于大型語言模型推理部署的NVIDIAH100NVL和用于推薦模型的NVIDIAGraceHopper。這些平臺(tái)的軟件層采用NVIDIAAIEnterprise軟件套件,包括用于高性能深度學(xué)習(xí)推理的軟件開發(fā)套件NVIDIATensorRT,以及幫助實(shí)現(xiàn)模型部署的開源推理服務(wù)軟件NVIDIATritonInferenceServer。AI視頻NVIDIAH100NVL大型語言模型NVIDIAGraceHopper推薦系統(tǒng)模型資料來源:NVIDIA,華泰研究資料來源:NVIDIA官網(wǎng)、華泰研究NVIDIAL4NVIDIAL40NVIDIAT4NVIDIAA2NVIDIAA10IntelDataCenterGPUFlex170IntelDataCenterGPUFlex140ReleaseYear2023202220182021202120222022MemorySize(GB)244824MemoryTypeGDDR6GDDR6GDDR6GDDR6GDDR6GDDR6GDDR6MemoryBus(bit)384256384256Bandwidth(GB/s)300.1864.0320.0200.0600.0512.0372.0PixelRate(Gpixel/s)163.20478.10101.8056.64162.70262.40124.80TextureRate(Gtexel/s)489.601,414.00254.4070.80488.20524.80249.60FP16half(TFLOPS)31.3390.5265.139.0062.5033.5915.97FP32float(TFLOPS)31.3390.528.149.0031.2016.797.99FP64double(GFLOPS)489.601,414.00254.4070.80976.30--PriceUnknownAround$9000Around$1500Around$1400Around$9000Probablyaround$6000Probablyaround$4000資料來源:英偉達(dá)、英特爾、SHI官網(wǎng),華泰研究英偉達(dá)SWOT分析我們認(rèn)為英偉達(dá)的AI芯片,憑借高算力,以及NVLink等獨(dú)家技術(shù),疊加高粘性的CUDA軟件生態(tài)圈加持,優(yōu)勢顯著。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀。資料來源:華泰研究傳統(tǒng)芯片巨頭:備受期待的突圍者AMDAMD的Al戰(zhàn)略主要包括三個(gè)方向:1)廣泛的CPU和GPU產(chǎn)品組合;2)開放穩(wěn)定且已證明(open,steadyandproven)的軟件平臺(tái);3)ROCm生態(tài)系統(tǒng)。CEOLisaSu于5月31日的《福布斯》采訪時(shí)強(qiáng)調(diào)“放眼5年,將在AMD每一個(gè)產(chǎn)品中看到AI”,AI是公司目前的戰(zhàn)略首位。目前英偉達(dá)領(lǐng)軍AI訓(xùn)練端,但隨著AMD在AI芯片上逐步發(fā)力,或能開始撼動(dòng)英偉達(dá)在行業(yè)里獨(dú)占鰲頭的地位。我們也認(rèn)為云廠商應(yīng)不希望AI芯片呈現(xiàn)一家獨(dú)大的局面,MI300恰逢其時(shí)地出現(xiàn),為市場提供了英偉達(dá)以外的選擇。MI300雖備受矚目,但截至2023年8月在客戶方面幾乎未有正式披露,因此,我們認(rèn)為,一旦有大型云客戶正式宣布部署,或?qū)⒂行嵴袷袌鲂判摹D壳霸茝S商應(yīng)還在對MI300進(jìn)行測試和下單階段,我們將對后續(xù)公布的訂單情況保持關(guān)注。公司在23Q2業(yè)績電話會(huì)中提到AI業(yè)務(wù)進(jìn)展勢頭強(qiáng)勁,截至23Q2客戶對AI產(chǎn)品的“參與度”環(huán)比增長超過七倍,主要來自MI300的新訂單和MI250的增量訂購,MI300將在本年四季度開始出貨。MI300A和GH200:CPU+GPUAI芯片架構(gòu)仿生人腦結(jié)構(gòu)MI300系列目前包括兩款產(chǎn)品:1)MI300X:純GPU,由12個(gè)chiplets(8個(gè)GPU+4個(gè)IO+Cache)構(gòu)成;2)MI300A:CPU+GPU,由13個(gè)chiplets(6個(gè)GPU+3個(gè)CPU+4個(gè)IO+Cache)構(gòu)成。MI300X作為純GPU產(chǎn)品或?qū)?biāo)英偉達(dá)GPUH100,而MI300A為APU架構(gòu)(Zen4CPU+CNDA3GPU與英偉達(dá)的異構(gòu)CPU+GPU芯片GH200正面交鋒。我們認(rèn)為,MI300A和X是客戶在英偉達(dá)GPU之外的有力選擇,或也可對AI芯片定價(jià)造成一定影響。MI300系列在參數(shù)上值得關(guān)注的亮點(diǎn)包括:1)MI300X的192GBHBM3內(nèi)存,領(lǐng)先英偉達(dá)H100雙卡NVL的188GBHBM3,更遠(yuǎn)超H100PCIe和SMX的80GBH而MI300A的128GBHBM3內(nèi)存也不遑多讓;2)MI300X晶體管數(shù)量153相近;4)InfinityFabric互聯(lián)帶寬的896GB/s與NVLink的900GB/s也相差無幾;5)比免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀。AMD在2023年CES大會(huì)和2023年數(shù)據(jù)中心和人工智能首映式上,分別展示了MI300的AI訓(xùn)練和推理能力:1)MI300A可將GPT級別的模型訓(xùn)練時(shí)間從“幾個(gè)月”降低至“幾周”;2)單片MI300X可推理400億參數(shù)的Falcon模型。AMD稱這是這種參數(shù)規(guī)模的大語言模型第一次在單GPU上運(yùn)行(需要注意的是,400億參數(shù)在如今千億參數(shù)大模型時(shí)代并不大,公司主要強(qiáng)調(diào)的是單GPU公司進(jìn)而稱單片MI300X還可推理規(guī)模更大的模型,比如Meta的OPT模型(660億參數(shù)版本)和LLaMA(650億參數(shù))。若使用FP16精度,單片MI300X最高可推理800億參數(shù)的模型。在AMD的MI系列GPU中,除MI300A以外的所有產(chǎn)品都是純GPU。AMDMI系列GPU始自發(fā)布于2018年11月的MI50和MI60,二者制程都是臺(tái)積電7nm(早于英偉達(dá)2020年發(fā)布7nm的A100晶體管數(shù)量均為132億,分別有16GB和32GBHBM2。2020年11月,AMD發(fā)布MI100,晶體管數(shù)量256億,依然是7nm制程和32GBHBM2。2021年AI大模型訓(xùn)練性能的80%;6nm工藝,582億晶體管,128GBHBM2e,其中MI250比MI250X的算力略低。2022年5月Build大會(huì)上,微軟宣布成為部署MI200系列的首個(gè)云廠商。2023年3月MorganStanleyTMT大會(huì)上微軟再次宣布已在云上部署了大量MI250。2022年3月,AMD正式發(fā)布了MI200系列的第三個(gè)產(chǎn)品MI210,僅64GBHBM2e,且算力也比另外兩款MI200產(chǎn)品約低50%,是MI200系列的基礎(chǔ)版。產(chǎn)品名稱MI50MI60MI100MI250MI250XMI210MI300AMI300X發(fā)布時(shí)間2018.112018.112020.112021.112021.112022.32023.12023.6峰值算力(TFLOPS)FP16:26.82FP32:13.41FP16:29.49FP32:14.75FP16:184FP32:23.1FP16:362.1FP32:45.3FP16:383FP32:47.87FP16:181FP32:22.6相比MI250約有8倍提升暫無工藝制程及芯片面積7nm,331mm27nm,331mm27nm,750mm26nm,724mm26nm,724mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量25658258258214601530內(nèi)存容量16GBHBM232GBHBM232GBHBM2128GBHBM2e128GBHBM2e64GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1024GB/s1024GB/s1.2TB/s3.2TB/s3.2TB/s1.6TB/s3.2TB/s5.2TB/s熱設(shè)計(jì)功耗TDP(W)300300300500500300600700/350(air-cooled)資料來源:AMD官網(wǎng)、華泰研究2023年1月,AMD在2023CES大會(huì)上首次推出了CPU+GPU的MI300,后改稱MI300A。MI300A是MI系列的第一款CPU+GPU異構(gòu)產(chǎn)品,我們認(rèn)為CPU+GPU架構(gòu)已成為AI芯片的趨勢,鑒于AI的最終目標(biāo)是模仿人類大腦的操作,因此AI芯片也應(yīng)仿生人腦結(jié)構(gòu),并順應(yīng)多模態(tài)模型的發(fā)展需求。如前文所述,英偉達(dá)的GraceHopper也是CPU+GPU架構(gòu)。在AI應(yīng)用里,GPU算力高,針對并行計(jì)算,在視頻處理、圖像渲染等方面的優(yōu)勢毋庸置疑,但并非所有工作負(fù)載都是單純的GPU-bound,也須由CPU進(jìn)行控制調(diào)用,發(fā)布指令。因此,在CPU+GPU架構(gòu)里的CPU可負(fù)責(zé)控制及發(fā)出指令,指示GPU處理數(shù)據(jù)和完成運(yùn)算(如矩陣運(yùn)算)。值得一提的是,MI300A的CPU,英偉達(dá)則采用了ARM架構(gòu)。我們認(rèn)為,兩者的選擇各有優(yōu)勢。一般來說,ARM架構(gòu)主要應(yīng)用于移動(dòng)端,因此相比x86能耗較低,這點(diǎn)不管在AI或是數(shù)據(jù)中心的應(yīng)用也會(huì)受到青睞。我們認(rèn)為英偉達(dá)也是看準(zhǔn)這點(diǎn)(公司也曾對ARM提出收購加上在這類CPU+GPU架構(gòu)中,CPU或僅需發(fā)揮其部分性能,如向GPU發(fā)出指令等,其他性能如AI訓(xùn)練和推理可交由GPU負(fù)責(zé),因此ARM架構(gòu)已能勝任。反過來,x86架構(gòu)則追求高性能和擁有較豐富的指令集,在AI里也可分擔(dān)推理負(fù)載,與GPU在功能上互補(bǔ)。另外,AMD的x86CPU也主打較高能效(PerformanceperWatt),因此也符合AI和數(shù)據(jù)中心的條件。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分,請務(wù)必一起閱讀。在面對不同模態(tài)數(shù)據(jù)的推理時(shí),我們認(rèn)為CPU與GPU的分工各有不同,因此同時(shí)部署CPU和GPU能提供更大的運(yùn)算支撐。例如,在處理語音、語言和文本時(shí),AI模型需計(jì)算有序,因此或更適合使用擅長串行運(yùn)算的CPU;但在處理圖像、視頻等推理時(shí)(對比人類在看到一幅圖片時(shí),每一個(gè)像素同時(shí)進(jìn)入眼睛需要大規(guī)模并行運(yùn)算,更適宜由GPU負(fù)責(zé)。資料來源:AMD推特官方、華泰研究我們認(rèn)為AMD在CPU+GPU架構(gòu)具備深厚的know-how。MI300A雖是AMD的首個(gè)CPU+GPU架構(gòu)的數(shù)據(jù)中心產(chǎn)品,但其實(shí)AMD早在2011年發(fā)布的APU(AcceleratedProcessingUnit)已是CPU+GPU架構(gòu),當(dāng)時(shí)只用于PC端。再向前追溯,我們發(fā)現(xiàn)AMD的CPU+GPU架構(gòu)理念較早有跡可循。在2006年,當(dāng)時(shí)AMD通過收購ATI獲得GPU以及芯片組技術(shù),并在同年開展AMDFusion項(xiàng)目(即后來的APU提出將CPU和GPU集成到一顆芯片上的理念,但當(dāng)時(shí)AMD的CPU和GPU采用45nm制程,將兩者放在同一芯片上的難度較大,直到2011年,AMD發(fā)布首款A(yù)PU產(chǎn)品LIano,真正把異構(gòu)的理念落地。2017年,AMD發(fā)布的論文《DesignandAnalysisofanAPUforExascaleComputing》中討論了包含CPU、GPU和HBM內(nèi)存堆棧的APU芯片設(shè)計(jì)。資料來源:AnandTech、華泰研究資料來源:T.Vijayaraghavanetal.,"DesignandAnalysisofanAPUforExascaleComputing,"2017IEEEInternationalSymposiumonHighPerformanceComputerArchitecture(HPCA),Austin,TX,USA,2017,pp.85-96,doi:10.1109/HPCA.2017.42.、華泰研究產(chǎn)品名稱英偉達(dá)A100PCIe|SXMH100PCIe|SXM|NVLMI250XAMDMI300AMI300X發(fā)布時(shí)間2020.62022.32021.112023.12023.6峰值算力(TFLOPS)FP16:312|624FP32:19.5FP64:19.5FP8:3,026|3,958|7,916FP16:1,513|1,979|3,958FP32:51|67|134FP64:51|64|134FP16:383FP32/64:47.9FP32/64Matrix:95.7暫無暫無工藝制程及芯片面積7nm,826mm24nm,814mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量(億)54080058214601530內(nèi)存容量80GBHBM2e80|80|188GBHBM3128GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1.9|2TB/s2|3.35TB/s|7.8TB/s3.2TB/s3.2TB/s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年重慶年貨運(yùn)從業(yè)資格證考試題答案
- 酒店住宿租賃合同模板
- 臨時(shí)演出場地租賃合同樣本
- 綠寶石礦建設(shè)土石方施工合同
- 食品加工銷售延期付款協(xié)議
- 商業(yè)步行街房產(chǎn)過戶模板
- 基坑支護(hù)施工合同:交通設(shè)施篇
- 城市燃?xì)饨?jīng)營許可管理辦法
- 分離廠電力系統(tǒng)安裝合同
- 銀行押運(yùn)車司機(jī)聘用協(xié)議
- HDICT營銷工程師認(rèn)證考試題庫及答案
- 長沙理工大學(xué)高數(shù)A(一)試卷1新
- 第二十三章旋轉(zhuǎn)復(fù)習(xí)公開課一等獎(jiǎng)市優(yōu)質(zhì)課賽課獲獎(jiǎng)?wù)n件
- 唐山市豐潤區(qū)七年級下學(xué)期語文期末考試試卷
- 大學(xué)生心理健康教育高職PPT全套教學(xué)課件
- 合資有限公司章程(設(shè)董事會(huì)設(shè)監(jiān)事會(huì))
- 思想道德與法治知到章節(jié)答案智慧樹2023年韶關(guān)學(xué)院
- 音樂人音四年級下冊(2015年新編)《火車托卡塔》(課件)
- 中國智能制造產(chǎn)業(yè)發(fā)展報(bào)告
- GB/T 3217-1992永磁(硬磁)材料磁性試驗(yàn)方法
- GB/T 24531-2009高爐和直接還原用鐵礦石轉(zhuǎn)鼓和耐磨指數(shù)的測定
評論
0/150
提交評論