科技行業(yè)：AI芯片風(fēng)繼續(xù)吹群賢畢至花落誰家

上傳人：策*** IP屬地：山西上傳時(shí)間：2023-09-26 格式：DOCX 頁數(shù)：316 大?。?4.16MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩311頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀?？萍际状胃采w首次覆蓋人工智能風(fēng)繼續(xù)吹，AI芯片乘風(fēng)而起，但B端應(yīng)用落地才是制勝關(guān)鍵本輪AI浪潮由ChatGPT掀起，并引發(fā)各中外科技企業(yè)展開對大語言模型及生成式AI的追逐和對算力的軍備競賽。GPT背后的核心算法是谷歌在2017年提出的Transformer，相對于深度學(xué)習(xí)，其創(chuàng)新在于采用了接近無監(jiān)督的自我監(jiān)督預(yù)訓(xùn)練，因此需要大量訓(xùn)練數(shù)據(jù)，加上少量有監(jiān)督的微調(diào)和強(qiáng)化學(xué)AI熱潮能否持續(xù)將取決于B端的大規(guī)模應(yīng)用落地。AI浪潮方興未艾，我們首次覆蓋給予AI芯片行業(yè)增持評級，重點(diǎn)推薦龍頭英偉達(dá)及突圍者AMD。首選軟硬件一體雙護(hù)城河的英偉達(dá)，同時(shí)看好突圍二戰(zhàn)有望凱旋的AMD作為全球AI芯片的龍頭廠商，英偉達(dá)在高算力硬件和高粘性CUDA生態(tài)的雙護(hù)城河下優(yōu)勢明顯，將充分受益于AI需求高漲。我們認(rèn)為，短期內(nèi)英偉達(dá)將主要由數(shù)據(jù)中心業(yè)務(wù)帶動(dòng)，長期成長則取決于AI商業(yè)應(yīng)用落地及芯片競爭格局的演變。隨著CoWoS產(chǎn)能瓶頸的改善，我們認(rèn)為英偉達(dá)GPU放量節(jié)奏將迎來加速。AMD曾憑臺(tái)積電的領(lǐng)先制程顛覆了一家獨(dú)大的英特爾，如今在AI領(lǐng)域面對英偉達(dá)的突圍戰(zhàn)似曾相識。AI已是AMD戰(zhàn)略首位，MI300也蓄勢待發(fā)，我們認(rèn)為AI新賽道乃AMD重估之鑰。對比英偉達(dá)完善的軟件生態(tài)CUDA，AMD的ROCm會(huì)否成為其阿克琉斯之踵？半導(dǎo)體半導(dǎo)體研究員研究員SACNo.S0570523020002SFCNo.ASI353+(852)36586000purdyho@華泰證券研究所分析師名錄重點(diǎn)推薦股票名稱股票代碼(當(dāng)?shù)貛欧N)投資評級英偉達(dá)NVDAUS650.00買入超威半導(dǎo)體AMDUS150.00買入資料來源：華泰研究預(yù)測AI芯片競爭趨白熱化：訓(xùn)練端“一超多強(qiáng)”，推理端百花齊放英偉達(dá)GPU一直為AI訓(xùn)練端首選。我們認(rèn)為只有少數(shù)芯片能與其匹敵，如谷歌TPU和AMDMI300系列。當(dāng)算法開始穩(wěn)定和成熟，ASIC定制芯片憑著專用性和低功耗，能承接部分算力。因此，頭部云計(jì)算及互聯(lián)網(wǎng)大廠出于削減TCO、提升研發(fā)可控性及集成生態(tài)等考量，均陸續(xù)發(fā)力自研芯片，我們認(rèn)為或?qū)⒊蔀橛ミ_(dá)最大的競爭對手。初創(chuàng)企業(yè)如Cerebras、Graphcore等，以晶圓級芯片拼內(nèi)存和傳輸速度，也有望異軍突起。AI推理市場規(guī)模大，但對算力要求比訓(xùn)練較低，因此百花齊放，在大模型和多模態(tài)趨勢下GPU或能奪份額。但目前推理端還是以CPU主導(dǎo)，多方涌入下競爭愈發(fā)激烈。臺(tái)積電CoWoS封裝產(chǎn)能乃AI芯片廠商“必爭之地”英偉達(dá)H100采用臺(tái)積電CoWoS先進(jìn)封裝技術(shù)，而AMDMI300采用臺(tái)積片需求旺盛，臺(tái)積電CoWoS封裝乃限制出貨量的瓶頸之一。但據(jù)Digitimes達(dá)24萬片，而英偉達(dá)將取得約15萬片；當(dāng)前三大客戶為英偉達(dá)、博通和賽靈思，而MI300在四季度推出后，AMD或?qū)⒁慌e躋身前五大客戶。英偉達(dá)的訂單或也將外溢到聯(lián)電和Amkor。另外，CoWoS的瓶頸也許是來自日本的Tazmo、Shibaura等的封裝設(shè)備廠商，交貨周期往往需要6-8個(gè)月。配置建議：英偉達(dá)“買入”，TP650美元；AMD“買入”，TP1英偉達(dá)作為全球數(shù)據(jù)中心GPU龍頭，該業(yè)務(wù)已占總營收逾75%，為主要盈利和營收貢獻(xiàn)，將充分受惠于臺(tái)積電先進(jìn)封裝產(chǎn)能明年翻倍，以及美國加息步入尾聲。游戲顯卡逐漸從挖礦和疫情間PC高基數(shù)影響中恢復(fù)，疊加高期待新游戲帶動(dòng)。首次覆蓋英偉達(dá)（NVDAUS）給予“買入”，F(xiàn)Y24-25年動(dòng)態(tài)20倍PS，目標(biāo)價(jià)650美元。AMD數(shù)據(jù)中心業(yè)務(wù)CPU制程仍領(lǐng)先英特爾，MI300系列有力沖擊英偉達(dá)，看好業(yè)務(wù)將受益主機(jī)“半代升級”；客戶端業(yè)務(wù)PC市場下滑收窄漸入佳境，首風(fēng)險(xiǎn)提示：AI技術(shù)落地和推進(jìn)不及預(yù)期、行業(yè)競爭激烈、中美競爭加劇。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀。人工智能風(fēng)繼續(xù)吹，AI芯片乘風(fēng)而起 4人工智能風(fēng)再起，產(chǎn)業(yè)發(fā)展空間廣闊 4看好整體AI芯片需求將伴隨著大模型和生成式AI的B端應(yīng)用落地而增加 4人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式始終是人工智能追求的終極形態(tài) 7我們處于AI的“iPhone”時(shí)刻嗎？ 8生成式AI將帶動(dòng)云大廠加碼硬件基礎(chǔ)設(shè)施 9“一超多強(qiáng)”的AI芯片市場競爭格局傳統(tǒng)芯片巨頭：英偉達(dá)在多方入局下能否繼續(xù)笑傲江湖？ 12英偉達(dá)在推理端能否復(fù)制其在訓(xùn)練端的成功？ 12英偉達(dá)的兩大護(hù)城河：高算力芯片和高粘性CUDA軟件生態(tài) 12先進(jìn)的網(wǎng)絡(luò)技術(shù)NVLink+NVSwitch，為吞吐量和可擴(kuò)展性帶來突破 13CUDA軟件生態(tài)的先發(fā)優(yōu)勢構(gòu)筑英偉達(dá)第二護(hù)城河 16生成式AI下較復(fù)雜的推理需求或?yàn)橛ミ_(dá)GPU賦新機(jī) 17英偉達(dá)SWOT分析 19傳統(tǒng)芯片巨頭：備受期待的突圍者AMD 20以AI為戰(zhàn)略首位，AMD突圍二戰(zhàn)能否凱旋？ 20MI300A和GH200：CPU+GPUAI芯片架構(gòu)仿生人腦結(jié)構(gòu) 20ROCm生態(tài)圈會(huì)否成為AMD的“阿克琉斯之踵”？分而治之或可解困 24傳統(tǒng)芯片巨頭：多元布局的追趕者英特爾 27云計(jì)算和互聯(lián)網(wǎng)大廠：或許是傳統(tǒng)芯片廠商的最大競爭對手 32谷歌TPU：少數(shù)能與英偉達(dá)高算力GPU匹敵的AI芯片 32亞馬遜AWS：Trainium&Inferentia，訓(xùn)練推理雙管齊下 38微軟：“閉門造芯”Athena 40Meta：首個(gè)自研推理端芯片MTIA將于2025年問世 41異軍突起者：晶圓級芯片持續(xù)突破性能極限，內(nèi)存和傳輸成破局關(guān)鍵 43Cerebras：向晶圓級大尺寸芯片邁出第一步，但良率和有效運(yùn)行占比暫成疑 43Graphcore：BowIPU實(shí)現(xiàn)精細(xì)數(shù)據(jù)多指令并行 48特斯拉：Dojo超算為自動(dòng)駕駛而生，為公司四大全棧自研科技支柱之一 52晶圓級芯片跟傳統(tǒng)芯片的各項(xiàng)對比 55AI芯片產(chǎn)業(yè)鏈：聚焦兵家必爭之地CoWoS封裝 58臺(tái)積電大擴(kuò)CoWoS產(chǎn)能，供給緊張有望得解 58硅晶圓供應(yīng)商：臺(tái)積電的6家硅晶圓供應(yīng)商占全球總產(chǎn)能90%以上 59襯底/基板（Substrate揖斐電、景碩、欣興電子等 60HBM內(nèi)存：SK海力士、三星、美光，三足鼎立 61服務(wù)器相關(guān)供應(yīng)商：惠與、戴爾、聯(lián)想、美超微、廣達(dá)、緯創(chuàng)等 61AI不只是大模型，自動(dòng)駕駛芯片群雄逐鹿，誰能突圍？ 63Mobileye：ADAS技術(shù)奠基者，“黑箱子模式”優(yōu)勢不再，轉(zhuǎn)型將面臨挑戰(zhàn) 65地平線：基于BPU架構(gòu)布局自動(dòng)駕駛生態(tài)追擊 67黑芝麻：第一家遞交港股18C上市文件的車載芯片股，華山對標(biāo)英偉達(dá)Orin，武當(dāng)實(shí)現(xiàn)跨域融合 70高通：可擴(kuò)展體系開展差異化競爭，對標(biāo)英偉達(dá)Thor打造跨域融合 71華為：邊緣端AI芯片賦能MDC計(jì)算平臺(tái) 72 73重點(diǎn)推薦：英偉達(dá)為AI芯片行業(yè)龍頭，AMD突圍有望迎來重估 75英偉達(dá)：AI龍頭軟硬一體雙護(hù)城河（NVDAUS，買入，目標(biāo)價(jià)：650.00美元） 75 76風(fēng)險(xiǎn)提示 78首次推薦公司 79英偉達(dá)（NVDAUS，買入，目標(biāo)價(jià)：6 79超威半導(dǎo)體（AMDUS，買入，目標(biāo)價(jià)：150.00美元） 125免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀。本輪人工智能浪潮由ChatGPT掀起，并以語言大模型（LargeLanguageModel,LLM）和生成式AI（GenerativeAI）應(yīng)用作為切入點(diǎn)。自谷歌在2017年發(fā)表至今，Transformer除了帶來像ChatGPT這樣的C端爆款產(chǎn)品外，其早已在自然語言處理、計(jì)算機(jī)視覺、自動(dòng)駕駛等領(lǐng)域里廣泛應(yīng)用。各中外科技企業(yè)持續(xù)加大對相關(guān)的投入，包括谷歌（GOOGLUS）、Meta（METAUS）、微軟（MSFTUS）、字節(jié)跳動(dòng)（未上市）、百度（BIDUUS）等海內(nèi)外一眾科技巨頭和初創(chuàng)企業(yè)均希望分一杯羹，其他非技術(shù)公司也不斷在人才、技術(shù)和資源方面進(jìn)行布局。根據(jù)BloombergIntelligence的預(yù)測數(shù)據(jù)，到2032年，生成式AI在總體信息技術(shù)硬件、軟件、服務(wù)、廣告和游戲等支出中的占比或?qū)哪壳安坏?%的水平擴(kuò)大至12%。ChatGPT（ChatGenerativePre-trainedTransformer）自22年11月發(fā)布后就引起了全球關(guān)注，5天內(nèi)注冊用戶超100萬，僅兩個(gè)月后，月活躍用戶已達(dá)1億。ChatGPT將生成式AI在文本、圖像、視頻等領(lǐng)域的多模態(tài)應(yīng)用正式帶入C端大眾用戶的視野。然而，我們認(rèn)為，語言大模型若只是停留在C端應(yīng)用，提供給一些網(wǎng)民娛樂，其實(shí)意義并不大。我們更加認(rèn)為，生成式AI的發(fā)展必須要配合B端應(yīng)用的落地，才能成為真正可以改變世界的高端科技。目前，微軟已發(fā)布Microsoft365Copilot等生成式AI產(chǎn)品，作為率先發(fā)布的重磅商業(yè)化應(yīng)用。Copilot依托微軟龐大的用戶群體、產(chǎn)品生態(tài)及使用場景，有望開啟AI的B端應(yīng)用發(fā)展新里程，并帶動(dòng)微軟打開新的AI商業(yè)化空間。BloombergIntelligence預(yù)測，全球生成式AI下游軟件市場規(guī)模將在2032年擴(kuò)大至2799億美元，2022-2023年十年復(fù)合增速達(dá)到69%。1,4001,2001,0008006004002000生成式AI在總科技支出占比生成式AI在總科技支出占比1,3041,07989772854839911%12%30410%2179%671375%6%7%1423403%4%生成式AI收入20212223E24E25E26E27E28E29E30E31E32E30%25%20%15%10%5%0%資料來源：BloombergIntelligence、IDC、華泰研究生成式生成式AI項(xiàng)目202220222032E2032ECAGRCAGR專業(yè)智能助手$447$89,03570%代碼編寫、DevOps等$213$50,43073%工作負(fù)載基礎(chǔ)設(shè)施軟件$439$71,64566%藥物發(fā)現(xiàn)軟件$14$28,343113%網(wǎng)絡(luò)安全支出$9$13,946109%教育支出$370$26,50053%軟件軟件$1,493$1,493$279,899$279,89969%69%資料來源：BloombergIntelligence、IDC、華泰研究2022年開始，大模型的數(shù)量及參數(shù)量均呈指數(shù)級增長?？傮w來說，我們認(rèn)為模型的數(shù)量和所需的訓(xùn)練數(shù)據(jù)才是對于算力要求的關(guān)鍵，因此，我們看好整體AI芯片的需求，將伴隨著大模型和生成式AI所支持的B端商業(yè)應(yīng)用落地而增加。自2018年OpenAI（未上市）發(fā)布了包含1.17億參數(shù)的第一代GPT（GenerativePre-trainedTransformer）模型以來，每一代GPT模型的迭代都伴隨著參數(shù)量的飛躍。一眾中外的科技巨頭們也不甘示弱，包括Google、Meta、百度等紛紛發(fā)布了PaLM、LaMDA、Llama、文心一言等為代表的大語言模型。2020年1月，OpenAI團(tuán)隊(duì)論文《ScalingLawsforNeuralLanguageModels》提出“縮放定律”（ScalingLaws即大模型表現(xiàn)伴隨模型參數(shù)量、數(shù)據(jù)集大小和計(jì)算量增長而增長，他們于2023年5月也再次強(qiáng)調(diào)，目前縮放定律仍未出現(xiàn)瓶頸。但我們也看到，谷歌在今年5月的I/O大會(huì)里發(fā)布的新一代PaLM大模型，PaLM2，就是通過算法上的改進(jìn)達(dá)到訓(xùn)練數(shù)據(jù)增加為上一代PaLM（7800億tokens）的約5倍，達(dá)到3.6萬億個(gè)tokens，但參數(shù)量為3400億，小于PaLM的5400億。注：不同顏色代表不同模型種類資料來源：英偉達(dá)官網(wǎng)、華泰研究“大模型”通常指的是有大量參數(shù)的自我監(jiān)督和預(yù)訓(xùn)練模型，其背后的核心技術(shù)是Transformer架構(gòu)，目前比較廣泛應(yīng)用于文本生成等自然語言處理領(lǐng)域。Transformer在2017年由谷歌大腦團(tuán)隊(duì)在論文《AttentionIsAllYouNeed》中提出。該架構(gòu)主要用于處理序列數(shù)據(jù)，主要采用自注意力機(jī)制（self-attentionmechanism為序列中的每個(gè)元素賦予不同的權(quán)重，從而捕獲序列內(nèi)部的長距離依賴關(guān)系。在Transformer之前，深度學(xué)習(xí)模型更多是采用監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練，因此需要大量標(biāo)注的數(shù)據(jù)。相對來說，GPT模型的創(chuàng)新之處在于采用了接近無監(jiān)督學(xué)習(xí)（具體叫“自我監(jiān)督學(xué)習(xí)”，self-supervisedlearning）的預(yù)訓(xùn)練，加上少量有監(jiān)督的微調(diào)相結(jié)合。注：GPT-4參數(shù)及訓(xùn)練基礎(chǔ)設(shè)施數(shù)據(jù)來自semianalysis資料來源：OpenAI官網(wǎng)、福布斯官網(wǎng)、InfoQ官網(wǎng)、semianalysis官網(wǎng)、微軟官網(wǎng)、華泰研究資料來源：CSDN官網(wǎng)、華泰研究在文本生成、上下文語義理解、文章修訂及摘要總結(jié)等需要泛化能力的大語言模型中，Transformer架構(gòu)相對以往的CNN和RNN網(wǎng)絡(luò)結(jié)構(gòu)取得了較大的進(jìn)展。Transformer架構(gòu)突破了RNN（RecurrentNeuralNetwork）模型固定順序?qū)傩运鶐淼挠?jì)算限制，其通過自注意力機(jī)制，可以同時(shí)處理整個(gè)序列的所有元素，從而實(shí)現(xiàn)了高效的并行化，提高了計(jì)算速度。同時(shí)，相比CNN（ConvolutionalNeuralNetwork）模型中伴隨距離增大，計(jì)算位置關(guān)聯(lián)所需操作將不斷增多，Transformer通過自注意力機(jī)制，可直接計(jì)算序列中任何兩個(gè)元素之間的關(guān)聯(lián)，且通過權(quán)重顯示序列元素間的關(guān)系，從而為模型提供更為豐富的全局上下文信息，有效提高對復(fù)雜結(jié)構(gòu)及語義的理解。故Transformer被認(rèn)為與大部分白領(lǐng)工作相契合，在當(dāng)前人力成本較高及生產(chǎn)力急需提升的背景下，或?qū)㈤_始下沉至辦公、會(huì)計(jì)、法律、編程和醫(yī)療等各領(lǐng)域進(jìn)行結(jié)合。我們可將Transformer模型比作人類的右腦，在淺層關(guān)聯(lián)性上表現(xiàn)優(yōu)異，適用于需要?jiǎng)?chuàng)造性的生成式領(lǐng)域，但其仍然需要加強(qiáng)左腦的邏輯判斷能力。資料來源：Devlin,Jacob,etal."Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding."arXivpreprintarXiv:1810.04805(2018).、OpenAl、KDnuggets、斯擔(dān)福大學(xué)官網(wǎng)、華泰研究30,00025,00020,00015,00010,0005,000024,60024,60020,48911,7005,1101,22021,400201820192020202120222023注：2023年的數(shù)據(jù)截止至7月資料來源：谷歌學(xué)術(shù)、華泰研究資料來源：StateofAIreport、華泰研究人腦神經(jīng)網(wǎng)絡(luò)的運(yùn)作模式始終是人工智能追求的終極形態(tài)類比人類大腦，左腦主要負(fù)責(zé)對信息邏輯的處理，如串行運(yùn)算、數(shù)字和算術(shù)、分析思維、理解、分類、整理等，而右腦負(fù)責(zé)并行計(jì)算、多模態(tài)、創(chuàng)造性思維和想象等。因此，左右腦從功能上分別代表CPU和GPU，對比人類可實(shí)現(xiàn)左右腦協(xié)同工作，整體調(diào)動(dòng)神經(jīng)網(wǎng)絡(luò)，將為AI的最終愿景。早在2011年，AMD產(chǎn)品構(gòu)想中就以CPU和GPU分別類比人類左右腦，并基于此提出了CPU+GPU的異構(gòu)產(chǎn)品策略。（詳見AMD部分）目前AMD的MI300A和英偉達(dá)的GraceHopper（GH200）均為CPU+GPU的異構(gòu)集成。GPU的算力高并針對并行計(jì)算，但須由CPU進(jìn)行控制調(diào)用，發(fā)布指令。在AI訓(xùn)練端，CPU可負(fù)責(zé)控制及發(fā)出指令，指示GPU處理數(shù)據(jù)和完成復(fù)雜的浮點(diǎn)運(yùn)算（如矩陣運(yùn)算）。在面對不同模態(tài)數(shù)據(jù)的推理時(shí)，我們認(rèn)為，CPU與GPU的分工也各有不同，因此，同時(shí)部署CPU和GPU能提供更大的運(yùn)算支撐。例如，在處理語音、語言和文本數(shù)據(jù)的推理時(shí)，AI模型需逐個(gè)識別目標(biāo)文字，計(jì)算有序，因此或更適合使用擅長串行運(yùn)算的CPU進(jìn)行運(yùn)算支持；但在處理圖像、視頻等數(shù)據(jù)的推理時(shí)（對比人類的操作，每一個(gè)像素是同時(shí)進(jìn)入眼睛需要大規(guī)模并行運(yùn)算，或更適宜由GPU負(fù)責(zé)，例如英偉達(dá)L4GPU可將AI視頻性能提高120倍，據(jù)英偉達(dá)測試，L4與基于CPU的傳統(tǒng)基礎(chǔ)設(shè)施相比能源效率提高99%。資料來源：HariR.Frombrain–environmentconnectionstotemporaldynamicsandsocialinteraction:principlesofhumanbrainfunction[J].Neuron,2017,94(5):1033-1039.、BrainFacts、華泰研究AI推理市場規(guī)模大，但對算力要求比訓(xùn)練較低，因此我們認(rèn)為各類芯片的使用將百花齊放，在大模型和多模態(tài)趨勢下GPU或能奪份額。但目前推理端還是以CPU主導(dǎo)，多方涌入下競爭愈發(fā)激烈。值得一提的是，數(shù)據(jù)中心里擁有各類不同的芯片，而不同的AI工作負(fù)載應(yīng)該在哪一片芯片上運(yùn)行，將取決于以上提到的適配度以及性價(jià)比。因此，各類芯片也有其不同的優(yōu)勢。資料來源：CSDN、谷歌官網(wǎng)、VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.、華泰研究人工智能的概念可以追溯到上世紀(jì)五六十年代。很多我們現(xiàn)在熟悉的算法，如神經(jīng)網(wǎng)絡(luò)，在20-30年前已經(jīng)存在，但由于缺乏算力和數(shù)據(jù)，因此無法有效地運(yùn)行。隨著GPU被應(yīng)用到AI、云計(jì)算的普及和海量數(shù)據(jù)的產(chǎn)生和存儲(chǔ)，AI技術(shù)才得以快速發(fā)展和應(yīng)用。對于“現(xiàn)在是AI的iPhone時(shí)刻”的觀點(diǎn)，我們更傾向于認(rèn)為，這是描述跟GPT相關(guān)的生成式AI開始應(yīng)用于ToB端及解放生產(chǎn)力的重要突破。至于在ToC端，AI技術(shù)其實(shí)早已有眾多應(yīng)用融入了我們的生活，如智能手機(jī)中的語音助手Siri和人臉識別等功能。資料來源：太平洋電腦網(wǎng)、蘋果官網(wǎng)、英偉達(dá)官網(wǎng)、蘋果派、OpenAI官網(wǎng)、各公司公告、華泰研究我們認(rèn)為，硬件設(shè)備的規(guī)模和性能是AI大模型時(shí)代的必然要求。鑒于目前生成式AI主要以大參數(shù)模型路徑實(shí)行，隨著模型數(shù)量和所需要處理的數(shù)據(jù)量增長，其訓(xùn)練與推理均需要大量的計(jì)算能力與存儲(chǔ)資源，故生成式AI應(yīng)用的蓬勃發(fā)展將帶動(dòng)高算力AI芯片以及云計(jì)算的需求增長。BloombergIntelligence及IDC數(shù)據(jù)顯示，到2024年，AI訓(xùn)練和推理硬件市場規(guī)模將達(dá)930億美元，而到2032年將逾6000億美元。100%90%80%70%60%50%40%30%20%10%0%訓(xùn)練推理20222023202420252026202720282029203020312032資料來源：BloombergIntelligence、IDC、華泰研究5004003002001000474訓(xùn)練474訓(xùn)練推理360283224836442493496774620222023202420252026202720282029203020312032資料來源：BloombergIntelligence、IDC、華泰研究140%120%100%80%60%40%20%0%-10%-20%云大廠和互聯(lián)網(wǎng)巨頭預(yù)計(jì)將繼續(xù)加大資本開支，AI硬件為重點(diǎn)領(lǐng)域。谷歌、微軟、亞馬遜以及Meta在二季度業(yè)績說明會(huì)中提到：140%120%100%80%60%40%20%0%-10%-20%?微軟FY23Q4：資本開支（不含融資租賃）89.43億美元，同比增加30.16%，計(jì)劃持續(xù)加大數(shù)據(jù)中心、CPU和GPU等投入；?谷歌232Q：資本開支環(huán)比增長10％至69億美元，主要投放在服務(wù)器以及AI大模型計(jì)算領(lǐng)域，增幅低于彭博一致預(yù)期主因數(shù)據(jù)中心建設(shè)項(xiàng)目延遲，但公司預(yù)計(jì)對技術(shù)基礎(chǔ)設(shè)施的投資將在2023下半年增加；?亞馬遜23Q2：資本開支（含融資租賃）為114.55億美元，同比下跌27%，雖受逐漸下滑的運(yùn)輸投入影響，公司預(yù)計(jì)2023全年資本開支同比下滑至略高于500億美元的水平，但仍將繼續(xù)增加對AI和大語言模型的投入以滿足客戶需求；?Meta23Q2：資本開支（不含融資租賃）為61.34億美元，同比下跌19%，主要鑒于非AI服務(wù)器費(fèi)用的減少，以及部分項(xiàng)目和設(shè)備交付的延誤將轉(zhuǎn)入2024年，公司預(yù)計(jì)2024年資本開支將伴隨數(shù)據(jù)中心、服務(wù)器及人工智能方面投資的推進(jìn)而增加?？傮w來看，2023上半年，以谷歌、微軟及亞馬遜及Meta為代表的互聯(lián)網(wǎng)巨頭在資本開支方面，雖受到項(xiàng)目延期或宏觀與其他業(yè)務(wù)規(guī)劃等因素?cái)_動(dòng)，但在AI相關(guān)的資本開支方面正逐漸加大。展望2024年，AI基礎(chǔ)設(shè)施將是重點(diǎn)投入領(lǐng)域。故我們認(rèn)為頭部云廠商和互聯(lián)網(wǎng)巨頭加大AI領(lǐng)域資本開支將進(jìn)一步支撐AI的產(chǎn)業(yè)趨勢。我們認(rèn)為，2022年以來，美聯(lián)儲(chǔ)穩(wěn)步提高利率導(dǎo)致企業(yè)削減數(shù)據(jù)中心支出，后續(xù)美聯(lián)儲(chǔ)或?qū)⑼Ｖ辜酉?，疊加AI需求增長，有望提振科技巨頭的資本開支，將持續(xù)帶動(dòng)AI芯片等基礎(chǔ)硬件設(shè)施放量。45040035030025020015010050MicrosoftMetaAmazon（含租賃）Google同比合計(jì)-11%資料來源：各公司官網(wǎng)、華泰研究“一超多強(qiáng)”的AI芯片市場競爭格局在人工智能的訓(xùn)練端（training我們認(rèn)為英偉達(dá)的GPU憑著高算力為門檻，一直以來都是訓(xùn)練端的首選。但隨著人工智能應(yīng)用市場的不斷擴(kuò)大，AMDMI300系列的GPU、云計(jì)算廠商自研專用芯片、以及大尺寸晶圓級芯片也開始異軍突起。推理端對算力要求較訓(xùn)練端低，目前推理芯片市場百花齊放，各類芯片均據(jù)有一席之地。我們認(rèn)為，推理端和訓(xùn)練端一樣，傳統(tǒng)芯片廠商也將面臨云計(jì)算廠商和AI芯片初創(chuàng)企業(yè)的挑戰(zhàn)。AMD在23Q1財(cái)報(bào)會(huì)議上表示，AMD已將人工智能列為戰(zhàn)略重點(diǎn)的首位，同時(shí)推出新產(chǎn)品MI300系列，在制程、架構(gòu)及算力等多方面向英偉達(dá)同類產(chǎn)品看齊。另外，作為英偉達(dá)客戶的云計(jì)算大廠也陸續(xù)發(fā)力自研專用芯片。谷歌的TPU（TensorProcessingUnit）專為神2020年推出的TPUv4，在多種機(jī)器學(xué)習(xí)框架模型上已與英偉達(dá)的A100可比。亞馬遜AWS自己造芯早已有跡可循，2018年開發(fā)了基于ARM的服務(wù)器CPUGraviton，也為AI推理端自研專用芯片Inferentia(2018年末推出第一代，目前已發(fā)展到第二代)和AI訓(xùn)練端定制芯片Trainium（2020年末推出）。對比基于GPU的實(shí)例，Trainium速度能提升140%，成本能降低70%。據(jù)2023年4月18日美國科技媒體TheInformation報(bào)道，微軟也正在閉門造芯，研發(fā)支撐AIGC訓(xùn)練和運(yùn)行的專用芯片Athena（雅典娜希望進(jìn)一步降低開發(fā)AI的成本。除了傳統(tǒng)芯片龍頭和云計(jì)算大廠之外，我們也發(fā)現(xiàn)一些新興初創(chuàng)AI芯片企業(yè)（如Cerebras、Graphcore等以及芯片行業(yè)以外的企業(yè)，包括特斯拉等，正在異軍突起，試圖在芯片設(shè)計(jì)上另辟蹊徑，通過大尺寸晶圓級芯片的技術(shù)路線，在持續(xù)上升的算力、傳輸和內(nèi)存需求市場中搶占份額。短期來看，我們認(rèn)為，使用先進(jìn)封裝技術(shù)的GPU相較晶圓級芯片或是更優(yōu)選擇，但長期來看，晶圓級芯片的瓶頸若能突破，也將成為傳統(tǒng)技術(shù)路徑的有力挑戰(zhàn)訓(xùn)練端訓(xùn)練端通用性強(qiáng)，但較難適應(yīng)于人工智能時(shí)代大數(shù)據(jù)并行計(jì)算工作。通用性強(qiáng)，多維計(jì)算及大規(guī)模并行計(jì)算架構(gòu)，適合深度學(xué)習(xí)需要；在訓(xùn)練端是第一選擇-針對特定框架進(jìn)行深度優(yōu)化定固定成本也較高推理端需要大量空間去放置存儲(chǔ)單元用于邏輯控制。英偉達(dá)從18年開始通過T4芯片等布局推理端到邊緣計(jì)算；對算力要求較訓(xùn)練端要低多以加速器形式跟CPU一起搭載；依靠可編程性，適用于開發(fā)周期較短的產(chǎn)品，以及開發(fā)試錯(cuò)階段等；較成熟的量產(chǎn)設(shè)備多采用ASIC若特定領(lǐng)域產(chǎn)生大規(guī)模需求，在大批量生產(chǎn)下固定成本可有效給攤分；能耗也較低代表廠商Intel/AMDNVIDIA/AMDAltera（Intel）/Xilinx（AMD）Google的TPUAWSTranium/Inferentia資料來源：nextplatform官網(wǎng)、HUAWEI、華泰研究英偉達(dá)在推理端能否復(fù)制其在訓(xùn)練端的成功？英偉達(dá)的GPU雖在AI訓(xùn)練端屬不二之選，對比市場同類訓(xùn)練產(chǎn)品也具有顯著優(yōu)勢。然而，推理端的門檻相對較低，且應(yīng)用場景和需求更為多元，目前各類芯片都在此領(lǐng)域獲得一席之地，因此AI推理方面英偉達(dá)仍面臨著激烈競爭。從發(fā)展歷程來看，傳統(tǒng)推理端主要依賴CPU去處理相對簡單和對算力要求較低的推理任務(wù)。不過，目前AI模型的規(guī)模和復(fù)雜度跟過去相比已提升了不少，隨著更多工作負(fù)載將逐漸納入到推理領(lǐng)域，因此對于推理算力的要求也會(huì)越來越高，或?qū)⒃谝欢ǔ潭壬蠋?dòng)更多GPU在推理領(lǐng)域的應(yīng)用。但我們需強(qiáng)調(diào)，推理所需要的算力本身比訓(xùn)練所需要的算力低，因此英偉達(dá)的高算力在推理端不一定像其在訓(xùn)練端般擁有明顯優(yōu)勢。另外，數(shù)據(jù)中心里擁有各類不同的芯片，而不同的AI工作負(fù)載應(yīng)該在哪一片芯片上運(yùn)行，將取決于適配度以及性價(jià)比。因此，各類芯片也有其不同的優(yōu)勢。在這領(lǐng)域里英偉達(dá)的高性能推理芯片正面對著各種競爭對手，除了CPU之外，也包括AMD的GPU、英偉達(dá)的GPU（包括老款）、FPGA和ASIC等。英偉達(dá)的兩大護(hù)城河：高算力芯片和高粘性CUDA軟件生態(tài)我們認(rèn)為，英偉達(dá)憑著高算力硬件和高粘性軟件生態(tài)兩大護(hù)城河，是人工智能訓(xùn)練端的不二之選。根據(jù)不同芯片在AI論文中的引用數(shù)量可知，英偉達(dá)的芯片在AI研究論文中最受歡迎，其產(chǎn)品的使用率是ASIC的131倍，是Graphcore（未上市）、Habana（給Intel收購了）、Cerebras（未上市）、SambaNova（未上市）和寒武紀(jì)（688256CH）五家總和的90倍，是谷歌TPU的78倍，是FPGA的23倍。一般來說，在人工智能領(lǐng)域，新模型的推出都會(huì)發(fā)表相關(guān)論文便于信息交流與學(xué)術(shù)合作，英偉達(dá)在人工智能相關(guān)的論文中遙遙領(lǐng)先的引用數(shù)量，也反映了新算法需采用英偉達(dá)GPU的必要性，以及其在學(xué)術(shù)界長期以來的重要地位和影響力。注：Big5startups是指Graphcore,Habana,Cerebras,SambaNova和寒武紀(jì)五家初創(chuàng)芯片企業(yè)，其中寒武紀(jì)為中國企業(yè)；Habana在2019年被Intel收購。資料來源：ZetaAlphaanalysis、華泰研究4.7%95.1%AMD資料來源：IDC、華泰研究英偉達(dá)持續(xù)迭代高性能計(jì)算芯片，在產(chǎn)品工藝、計(jì)算能力和存儲(chǔ)帶寬等不斷創(chuàng)新。面向高性能計(jì)算和深度學(xué)習(xí)場景，英偉達(dá)基于其芯片架構(gòu)，打造了一系列支持提升張量核心和稀疏矩陣計(jì)算等能力的GPU產(chǎn)品。2023年，英偉達(dá)已不滿足于單GPU的更新?lián)Q代，重磅推出結(jié)合GraceCPU與HopperGPU的GH200超級芯片，實(shí)現(xiàn)了高達(dá)900GB/s的總帶寬，加速大規(guī)模AI和HPC應(yīng)用計(jì)算。在一年后的SIGGRAPH上，英偉達(dá)的AI芯片再迎升級，推出了全球首次采用HBM3e內(nèi)存的GH200超級芯片。該芯片的帶寬高達(dá)每秒5TB并能提供141GB的內(nèi)存容量，適用于復(fù)雜的生成式人工智能工作負(fù)載，如大型語言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫等。產(chǎn)品名稱英偉達(dá)產(chǎn)品名稱A100A100PCIe｜SXMH100PCIe｜SXM｜NVLL40SGH200（HBM3）GH200（HBM3e）發(fā)布時(shí)間發(fā)布時(shí)間2020.62022.32023.82023.52023.8FP16:312｜624FP32:FP16:312｜624FP32:19.5FP64:19.5峰值算力（TFLOPS）FP8:3026｜3958｜7916FP16:1513｜1979｜3958FP32:51｜67｜134FP16:733FP32:91.6FP64:51｜64｜134工藝制程TSMC7nmTSMC4nmTSMCTSMC4nmTSMC4nmTSMC4nm芯片面積826mm2814mm2---晶體管數(shù)（B）548076.3200--內(nèi)存容量（GB）80GB（HBM2e）80｜80｜188（HBM3）48GB（GDDR6）96（HBM3）141（HBM3e）內(nèi)存帶寬1935｜2039GB/s2｜3.35TB/s｜7.8TB/s864GB/s<=4TB/s55TB/sInterconnectNVLink600GB/sNVLink600｜900｜600GB/s16LinksPCIeGen464GB/sNVLink900GB/sNVLink900GB/sTDP（W）300300｜400300-350300-350｜700｜2x350-400AMD350350450-1000谷歌450450-1000英特爾HabanaGaudi2產(chǎn)品名稱MI250XMI300AMI300XTPUv4發(fā)布時(shí)間2021.112023.12023.62021.52022.52022.5峰值算力（TFLOPS）FP16:383FP32/64:47.9FP32/64Matrix:95.7--Bf16:275-工藝制程TSMC6nmTSMC5nmTSMC5nmTSMC7nmTSMCTSMC7nm芯片面積724mm21017mm21017mm2780mm2-晶體管數(shù)（B）5831*--內(nèi)存容量（GB）128（HBM2e）-128（HBM3）32（HBM2）96（HBM2E）內(nèi)存帶寬3.2TB/s-5.2TB/s1200GB/s2.452.45TB/sInterconnectInfinityFabric>=500GB/sInfinityFabric800GB/sInfinityFabric896GB/s3DtorusRDMA（RoCEv2）100GB/sTDP（W）500600-600600資料來源：英偉達(dá)官網(wǎng)、AMD官網(wǎng)、谷歌官網(wǎng)、habana官網(wǎng)、ANANDTECH、semianalysis、tom’sHardware、TechPowerUp、THENEXTPLATFORM、華泰研究資料來源：福布斯官網(wǎng)、華泰研究先進(jìn)的網(wǎng)絡(luò)技術(shù)NVLink+NVSwitch，為吞吐量和可擴(kuò)展性帶來突破NVLink+NVSwitch，英偉達(dá)先進(jìn)的網(wǎng)絡(luò)技術(shù)為吞吐量和可擴(kuò)展性帶來突破。大規(guī)模的計(jì)算負(fù)載需要實(shí)現(xiàn)多節(jié)點(diǎn)連接。在2023年5月29日舉辦的COMPUTEX大會(huì)上，英偉達(dá)正式發(fā)布NVIDIADGXGH200超級計(jì)算系統(tǒng)。該系統(tǒng)通過NVLink互連技術(shù)及NVLinkSwitch串聯(lián)32臺(tái)由8塊GH200超級芯片（總計(jì)256塊組成了一個(gè)144TB內(nèi)存及1exaFLOPS=1000petaFLOPS算力的超級計(jì)算系統(tǒng)。大規(guī)模的共享內(nèi)存解決了AI大模型訓(xùn)練的關(guān)鍵瓶頸，GoogleCloud、Meta與微軟將是其首批用戶。NVLink與NVSwitch相結(jié)合實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)間通信拓展和高速互聯(lián)，使大規(guī)模并行處理成為可能，是支撐英偉達(dá)GPU系統(tǒng)實(shí)現(xiàn)高速通信的基石。資料來源：英偉達(dá)官網(wǎng)、華泰研究DGXH100DGXGH200GPUandCPU8xNVIDIAH100TensorCoreGPUs+DualIntel?Xeon?Platinum8480CProcessors256xNVIDIAGraceHopperSuperchips（eachGraceHopperSuperchipincludesGraceArm?CPU+H100TensorCoreGPU）CPUCores112Corestotal,2.00GHz（Base）,18,432Arm?NeoverseV2CoreswithSVE24X128b3.80GHz（MaxBoost）GPUmemory640GB144TBPerformance（FP8）32petaFLOPS1exaFLOPSNVIDIA?NVSwitch4x96xL1NVIDIANVLinkSwitches36xL2NVIDIANVLinkSwitchesNetworking4xOSFPportsserving8xsingle-portNVIDIAConnectX-7VPI>Upto400Gb/sInfiniBand/Ethernet2xdual-portQSFP112NVIDIAConnectX-7VPI>Upto400Gb/sInfiniBand/Ethernet256xOSFPsingle-portNVIDIAConnectX?-7VPIwith400Gb/sInfiniBand256xdual-portNVIDIABlueField?-3VPIwith200Gb/sInfiniBandandEthernet24xNVIDIAQuantum-2QM9700InfiniBandSwitches20xNVIDIASpectrum?SN2201EthernetSwitches22xNVIDIASpectrumSN3700EthernetSwitchesManagementnetwork10Gb/sonboardNICwithRJ45100Gb/sEthernetNICHostbaseboardmanagementcontroller（BMC）withRJ45Hostbaseboardmanagementcontroller（BMC）withRJ45SoftwareNVIDIAAIEnterprise（optimizedAIsoftware）NVIDIABaseCommand（orchestration,scheduling,andclustermanagement）DGXOS/Ubuntu/RedHatEnterpriseLinux/Rocky（operatingsystem）SupportComeswith3-yearbusiness-standardhardwareandsoftwaresupport資料來源：英偉達(dá)官網(wǎng)、華泰研究英偉達(dá)獨(dú)家的NVLink網(wǎng)絡(luò)連接技術(shù)，解決了數(shù)據(jù)傳輸帶寬瓶頸。NVLink是英偉達(dá)針對GPU加速計(jì)算而開發(fā)的高速互連技術(shù)，自2016年推出后已發(fā)展至第四代。NVLink能提供比PCIe更大的帶寬，滿足AI工作負(fù)載大規(guī)模的傳輸需求。傳統(tǒng)的PCIe技術(shù)下，每個(gè)設(shè)備擁有專用的點(diǎn)對點(diǎn)連接，對于運(yùn)行大規(guī)模并行功能和移動(dòng)大量數(shù)據(jù)的CPU和GPU往往存在性能瓶頸。為了構(gòu)建滿足人工智能等發(fā)展需求的端到端計(jì)算平臺(tái)，英偉達(dá)推出的NVLink技術(shù)，為CPU、GPU與系統(tǒng)其他部分之間提供高帶寬的連接路徑，也允許多個(gè)GPU通過高速互連直接通信，從而實(shí)現(xiàn)GPU之間可用內(nèi)存的組合和訪問。NVLink2NVLink3NVLink4DSR數(shù)據(jù)信號速率（Gbps）2550單鏈路的通道數(shù)842單鏈路的單向帶寬（GB/s）252525單鏈路總帶寬（GB/s）505050總鏈路數(shù)6總帶寬（GB/s）300600900推出年份201620172020資料來源：英偉達(dá)官網(wǎng)、ICspec官網(wǎng)、華泰研究NVLink4的總帶寬可達(dá)每秒900GB/s，為PCIe5.0總線帶寬的7倍，也遠(yuǎn)高于下一代PCIe6.0的256GB/s速率，能滿足AI和HPC持續(xù)增長的對多節(jié)點(diǎn)、多GPU系統(tǒng)的計(jì)算需求，為深度學(xué)習(xí)訓(xùn)練提供了更大的延展空間。此外，使用NVLink技術(shù)的設(shè)備有多個(gè)路徑可供選擇，和共享中央集線器的PCIe相比，加快了系統(tǒng)的運(yùn)行速度，提升了數(shù)據(jù)流和總系統(tǒng)吞吐PCIe標(biāo)準(zhǔn)單通道數(shù)據(jù)傳輸速率（GT/s）編碼x16帶寬（GB/s）標(biāo)準(zhǔn)批準(zhǔn)年份2.58b/10b820032.x58b/10b20073.x8128b/130b3220104.0128b/130b6320175.032128b/130b20196.064PAM4/FLIT2562022資料來源：WCCFtech官網(wǎng)、Rambus官網(wǎng)、華泰研究NVSwitch是英偉達(dá)的節(jié)點(diǎn)交換架構(gòu)，通過連接多個(gè)NVLink，在單節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多GPU的拓展。NVSwitch在2018年隨第二代NVLink一起推出，將多個(gè)NVLink加以整合，實(shí)現(xiàn)多對多的GPU通信，進(jìn)一步提高系統(tǒng)的可拓展性。最新的第三代NVSwitch采用臺(tái)積電4N工藝打造，能在單個(gè)服務(wù)器節(jié)點(diǎn)中支持8到16個(gè)完全鏈接的GPU，支持以900GB/s的速度互連每個(gè)GPU，保障它們之間的完整點(diǎn)對點(diǎn)通信。資料來源：英偉達(dá)官網(wǎng)、ICspec官網(wǎng)、華泰研究第一代第二代第三代直接連接的GPU數(shù)量/節(jié)點(diǎn)數(shù)量最多8個(gè)最多8個(gè)最多8個(gè)NVSwitchGPU-to-GPU帶寬300GB/s600GB/s900GB/s總聚合帶寬2.4TB/s4.8TB/s7.2TB/s支持的NVIDIA架構(gòu)NVIDIAVoltaarchitectureNVIDIAAmperearchitectureNVIDIAHopperarchitecture資料來源：英偉達(dá)官網(wǎng)、華泰研究PCIExpress→NVLink→NVLink+NVSwitch的演變歷程體現(xiàn)了英偉達(dá)對通信效率和擴(kuò)展性的不斷追求。隨著深度學(xué)習(xí)算法的復(fù)雜化和規(guī)模的擴(kuò)大，權(quán)重、梯度和偏差的同步與交換對通信延遲和高帶寬提出了更高的要求。PCIe在原始帶寬、延遲以及緩存一致性等方面限制了GPU之間大規(guī)模的組合和連接，于高性能計(jì)算和數(shù)據(jù)中心里適用性較低。NVLink和NVSwitch的推出解決了多個(gè)GPU大規(guī)模集群的傳輸，實(shí)現(xiàn)更快和更可擴(kuò)展的計(jì)算系統(tǒng)。資料來源：英偉達(dá)官網(wǎng)、華泰研究資料來源：英偉達(dá)官網(wǎng)、華泰研究CUDA軟件生態(tài)的先發(fā)優(yōu)勢構(gòu)筑英偉達(dá)第二護(hù)城河CUDA工具包包括一系列的編程工具、加速庫和框架，可用于協(xié)助開發(fā)人員更為便捷地進(jìn)行GPU編程和并行計(jì)算，其核心競爭力主要在于其硬件集成、完善的社區(qū)資源和廣泛的應(yīng)用支持形成的正循環(huán)。2023COMPUTEX大會(huì)上，英偉達(dá)CEO黃仁勛表示，CUDA擁有超過400萬開發(fā)人員和超過3000個(gè)應(yīng)用程序。受益于英偉達(dá)CUDA的先發(fā)優(yōu)勢與長期耕耘，搭配其新手友好的安裝與編程體驗(yàn)，CUDA龐大的用戶群體致使其搭建起由大量專業(yè)開發(fā)者與領(lǐng)域?qū)＜医M成的開發(fā)者社區(qū)。CUDA也涵蓋各類計(jì)算應(yīng)用的代碼庫資源，這無疑為CUDA的學(xué)習(xí)和應(yīng)用提供進(jìn)一步支持。截止2023年5月，CUDA下載量已累計(jì)超過4000萬次，且僅去年一年便達(dá)到2500萬次。資料來源：英偉達(dá)官網(wǎng)、華泰研究備注：*表示Cumulative資料來源：CES2023、華泰研究資料來源：英偉達(dá)官網(wǎng)、華泰研究同類對比下，CUDA軟件生態(tài)豐富成熟，在應(yīng)用廣泛性、市場份額和開發(fā)者支持方面均較為突出。由英偉達(dá)在2007年推出的編程平臺(tái)CUDA先發(fā)優(yōu)勢較明顯，歷年來大量機(jī)器學(xué)習(xí)算法工程師均使用。與CUDA生態(tài)系統(tǒng)對標(biāo)的平臺(tái)方面，OpenCL雖在通用性上更勝一籌，但其缺少針對并行計(jì)算的相關(guān)優(yōu)化及深度學(xué)習(xí)相關(guān)功能庫較少；而AMDROCm發(fā)布時(shí)間較晚，加上此前長期只支持Linux導(dǎo)致跨平臺(tái)能力不足，且對比CUDA其在科學(xué)計(jì)算與深度學(xué)習(xí)領(lǐng)域的功能庫、開發(fā)工具和應(yīng)用支持的完善方面仍有改進(jìn)空間。目前，雖有眾（Heterogeneous-ComputingInterfaceforPortability）兼容，但CUDA并未開源，因此100%兼容CUDA較為被動(dòng)。我們認(rèn)為，CUDA生態(tài)憑借穩(wěn)定的先發(fā)優(yōu)勢與用戶粘性，將持續(xù)為英偉達(dá)的軟件生態(tài)圈壁壘。CUDAROCmOpenCL發(fā)布時(shí)間2007年2016年2008年硬件支持支持2006年以來所有的英偉達(dá)GPU較多支持AMD高端GPU系列，自2023年6月29日更新的ROCm5.6.0版本開始逐步向消費(fèi)級GPU拓展可移植到NVIDIA、AMD、Intel等等各種其它硬件設(shè)備，包括FPGA和ASIC除了供應(yīng)商特定的擴(kuò)展操作系統(tǒng)Linux和Windows支持Linux，自2023年6月29日更新的ROCm5.6.0版本開始在Windows支持部分AMD消費(fèi)級GPU支持包括Linux、Windows以及macOS在內(nèi)的幾乎所有的操作系統(tǒng)功能庫擁有廣泛的高性能庫，覆蓋廣泛的終端應(yīng)用場景，包括資源受限的物聯(lián)網(wǎng)設(shè)備、自動(dòng)駕駛及超級計(jì)算機(jī)等領(lǐng)域：九大部分組成的合作伙伴庫、八大部分組成的數(shù)學(xué)庫、五大部分組成的深度學(xué)習(xí)庫、四大部分組成的圖像和視頻庫、兩大部分組成的通訊庫、并行算法庫以及計(jì)算光刻庫僅包括CUDA庫中的一部分：由LinearAlgebraLibraries線性代數(shù)庫、FastFourierTransforms快速傅里葉變換和RandomNumbers隨機(jī)數(shù)三部分組成的數(shù)學(xué)庫；rocPRIM、rocThrust以及hipCUB三部分組成的C++原始庫；MIOpen、ComposableKernel和MIGraphX三大部分組成的AI庫和以RCCL構(gòu)成的通訊庫OpenCL作為通用平臺(tái)，并行計(jì)算能力遠(yuǎn)不如CUDA（并行編程模型并行計(jì)算能力只達(dá)到后者的1/10到1/200不等，目前很少用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，因此可用的相關(guān)庫很少技術(shù)細(xì)節(jié)一種使用CUDA關(guān)鍵字實(shí)現(xiàn)并行化的平臺(tái)和編程模型；CUDA提供C/C++語言擴(kuò)展和API，用于編程和管理GPU。類似于NVIDIA的CUDA，ROCm支持多種編程語言、編譯器、庫和工具，目前主要通過異構(gòu)計(jì)算可移植接口（HIP）這種C++方言來簡化CUDA應(yīng)用程序到可移植C++代碼的轉(zhuǎn)換。HIP提供了C風(fēng)格的API和C++的內(nèi)核語言。不支持使用C++編寫代碼，而是提供了類C語言編程工作環(huán)境資料來源：CUDA官網(wǎng)、run:ai官網(wǎng)、phoronix、incredibuild、華泰研究生成式AI下較復(fù)雜的推理需求或?yàn)橛ミ_(dá)GPU賦新機(jī)長期以來，AI推理市場一直由CPU主導(dǎo)。根據(jù)Thenextplatform在2023年4月5日的報(bào)道，數(shù)據(jù)中心70%的推理在IntelXeonCPU上運(yùn)行。主要鑒于過去的AI推理任務(wù)較為簡單，以通用AI計(jì)算為主，如個(gè)性化廣告、搜索推薦、中小型模型等應(yīng)用，這些基礎(chǔ)的推理任務(wù)CPU便可勝任。此外，CPU在AI領(lǐng)域的應(yīng)用較早，云廠商已建立了大量的基礎(chǔ)設(shè)施和工具來支持，更換及重新配置的成本或也是考慮因素之一。面對不同的AI負(fù)載任務(wù)，GPU、CPU和ASIC或分別具有性能和成本優(yōu)勢。GPU擅長并行計(jì)算，特別適用于深度學(xué)習(xí)模型中的大規(guī)模矩陣計(jì)算。相比之下，CPU更擅長串行計(jì)算。因此，面對不同的AI負(fù)載，不同種類的芯片或能發(fā)揮不同的性能和成本優(yōu)勢。雖然GPU單個(gè)成本高于CPU，但在處理深度學(xué)習(xí)推理任務(wù)時(shí)，特別面向較復(fù)雜和多模態(tài)的AI負(fù)載，GPU或能提供更高的性能和效率，從而實(shí)現(xiàn)更快的推理速度和更高的吞吐量，節(jié)省了部署和運(yùn)行成本。在2018年9月，微軟發(fā)表了一篇GPU與CPU在深度學(xué)習(xí)模型推理部署對比的博客：測試中所采用的3節(jié)點(diǎn)GPU集群與5節(jié)點(diǎn)CPU集群的成本大致相同，在該測試所用的模型和框架中，3節(jié)點(diǎn)GPU集群的吞吐量優(yōu)于5節(jié)點(diǎn)CPU集群。140120100806040200KerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasNetMobileResnet50MobileNetV25CPUKerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasNetMobileResnet50MobileNetV2資料來源：微軟官網(wǎng)，華泰研究我們認(rèn)為隨著生成式AI和大模型的興起，高復(fù)雜度的推理任務(wù)變得更加普遍，或?qū)⑼苿?dòng)GPU在推理端的需求。對于較大的模型和較復(fù)雜的計(jì)算任務(wù)，CPU單獨(dú)來說或不足以滿足，未來這部分的推理應(yīng)用或?qū)腃PU轉(zhuǎn)移至CPU+加速器（ASIC或FPGA）或者CPU轉(zhuǎn)移至GPU。英偉達(dá)CEO黃仁勛也在8月8日的SIGGRAPH2023表示，在1億美元的預(yù)算下，數(shù)據(jù)中心可以采購2500塊GH200進(jìn)行推理，功耗為3MW，能實(shí)現(xiàn)同等預(yù)算下x86CPU方案12倍的AI推理性能和20倍的能效。資料來源：Intel官網(wǎng)，華泰研究針對推理市場，英偉達(dá)推出了一系列的新品。英偉達(dá)的推理平臺(tái)GPU產(chǎn)品組合包括用于AI視頻的NVIDIAL4、用于圖像生成的NVIDIAL40、用于大型語言模型推理部署的NVIDIAH100NVL和用于推薦模型的NVIDIAGraceHopper。這些平臺(tái)的軟件層采用NVIDIAAIEnterprise軟件套件，包括用于高性能深度學(xué)習(xí)推理的軟件開發(fā)套件NVIDIATensorRT，以及幫助實(shí)現(xiàn)模型部署的開源推理服務(wù)軟件NVIDIATritonInferenceServer。AI視頻NVIDIAH100NVL大型語言模型NVIDIAGraceHopper推薦系統(tǒng)模型資料來源：NVIDIA，華泰研究資料來源：NVIDIA官網(wǎng)、華泰研究NVIDIAL4NVIDIAL40NVIDIAT4NVIDIAA2NVIDIAA10IntelDataCenterGPUFlex170IntelDataCenterGPUFlex140ReleaseYear2023202220182021202120222022MemorySize（GB）244824MemoryTypeGDDR6GDDR6GDDR6GDDR6GDDR6GDDR6GDDR6MemoryBus（bit）384256384256Bandwidth（GB/s）300.1864.0320.0200.0600.0512.0372.0PixelRate（Gpixel/s）163.20478.10101.8056.64162.70262.40124.80TextureRate（Gtexel/s）489.601,414.00254.4070.80488.20524.80249.60FP16half（TFLOPS）31.3390.5265.139.0062.5033.5915.97FP32float（TFLOPS）31.3390.528.149.0031.2016.797.99FP64double（GFLOPS）489.601,414.00254.4070.80976.30--PriceUnknownAround$9000Around$1500Around$1400Around$9000Probablyaround$6000Probablyaround$4000資料來源：英偉達(dá)、英特爾、SHI官網(wǎng)，華泰研究英偉達(dá)SWOT分析我們認(rèn)為英偉達(dá)的AI芯片，憑借高算力，以及NVLink等獨(dú)家技術(shù)，疊加高粘性的CUDA軟件生態(tài)圈加持，優(yōu)勢顯著。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀。資料來源：華泰研究傳統(tǒng)芯片巨頭：備受期待的突圍者AMDAMD的Al戰(zhàn)略主要包括三個(gè)方向：1）廣泛的CPU和GPU產(chǎn)品組合；2）開放穩(wěn)定且已證明（open,steadyandproven）的軟件平臺(tái)；3）ROCm生態(tài)系統(tǒng)。CEOLisaSu于5月31日的《福布斯》采訪時(shí)強(qiáng)調(diào)“放眼5年，將在AMD每一個(gè)產(chǎn)品中看到AI”，AI是公司目前的戰(zhàn)略首位。目前英偉達(dá)領(lǐng)軍AI訓(xùn)練端，但隨著AMD在AI芯片上逐步發(fā)力，或能開始撼動(dòng)英偉達(dá)在行業(yè)里獨(dú)占鰲頭的地位。我們也認(rèn)為云廠商應(yīng)不希望AI芯片呈現(xiàn)一家獨(dú)大的局面，MI300恰逢其時(shí)地出現(xiàn)，為市場提供了英偉達(dá)以外的選擇。MI300雖備受矚目，但截至2023年8月在客戶方面幾乎未有正式披露，因此，我們認(rèn)為，一旦有大型云客戶正式宣布部署，或?qū)⒂行嵴袷袌鲂判摹Ｄ壳霸茝S商應(yīng)還在對MI300進(jìn)行測試和下單階段，我們將對后續(xù)公布的訂單情況保持關(guān)注。公司在23Q2業(yè)績電話會(huì)中提到AI業(yè)務(wù)進(jìn)展勢頭強(qiáng)勁，截至23Q2客戶對AI產(chǎn)品的“參與度”環(huán)比增長超過七倍，主要來自MI300的新訂單和MI250的增量訂購，MI300將在本年四季度開始出貨。MI300A和GH200：CPU+GPUAI芯片架構(gòu)仿生人腦結(jié)構(gòu)MI300系列目前包括兩款產(chǎn)品：1）MI300X：純GPU，由12個(gè)chiplets（8個(gè)GPU+4個(gè)IO+Cache）構(gòu)成；2）MI300A：CPU+GPU，由13個(gè)chiplets（6個(gè)GPU+3個(gè)CPU+4個(gè)IO+Cache）構(gòu)成。MI300X作為純GPU產(chǎn)品或?qū)?biāo)英偉達(dá)GPUH100，而MI300A為APU架構(gòu)（Zen4CPU+CNDA3GPU與英偉達(dá)的異構(gòu)CPU+GPU芯片GH200正面交鋒。我們認(rèn)為，MI300A和X是客戶在英偉達(dá)GPU之外的有力選擇，或也可對AI芯片定價(jià)造成一定影響。MI300系列在參數(shù)上值得關(guān)注的亮點(diǎn)包括：1）MI300X的192GBHBM3內(nèi)存，領(lǐng)先英偉達(dá)H100雙卡NVL的188GBHBM3，更遠(yuǎn)超H100PCIe和SMX的80GBH而MI300A的128GBHBM3內(nèi)存也不遑多讓；2）MI300X晶體管數(shù)量153相近；4）InfinityFabric互聯(lián)帶寬的896GB/s與NVLink的900GB/s也相差無幾；5）比免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀。AMD在2023年CES大會(huì)和2023年數(shù)據(jù)中心和人工智能首映式上，分別展示了MI300的AI訓(xùn)練和推理能力：1）MI300A可將GPT級別的模型訓(xùn)練時(shí)間從“幾個(gè)月”降低至“幾周”；2）單片MI300X可推理400億參數(shù)的Falcon模型。AMD稱這是這種參數(shù)規(guī)模的大語言模型第一次在單GPU上運(yùn)行（需要注意的是，400億參數(shù)在如今千億參數(shù)大模型時(shí)代并不大，公司主要強(qiáng)調(diào)的是單GPU公司進(jìn)而稱單片MI300X還可推理規(guī)模更大的模型，比如Meta的OPT模型（660億參數(shù)版本）和LLaMA（650億參數(shù)）。若使用FP16精度，單片MI300X最高可推理800億參數(shù)的模型。在AMD的MI系列GPU中，除MI300A以外的所有產(chǎn)品都是純GPU。AMDMI系列GPU始自發(fā)布于2018年11月的MI50和MI60，二者制程都是臺(tái)積電7nm（早于英偉達(dá)2020年發(fā)布7nm的A100晶體管數(shù)量均為132億，分別有16GB和32GBHBM2。2020年11月，AMD發(fā)布MI100，晶體管數(shù)量256億，依然是7nm制程和32GBHBM2。2021年AI大模型訓(xùn)練性能的80%；6nm工藝，582億晶體管，128GBHBM2e，其中MI250比MI250X的算力略低。2022年5月Build大會(huì)上，微軟宣布成為部署MI200系列的首個(gè)云廠商。2023年3月MorganStanleyTMT大會(huì)上微軟再次宣布已在云上部署了大量MI250。2022年3月，AMD正式發(fā)布了MI200系列的第三個(gè)產(chǎn)品MI210，僅64GBHBM2e，且算力也比另外兩款MI200產(chǎn)品約低50%，是MI200系列的基礎(chǔ)版。產(chǎn)品名稱MI50MI60MI100MI250MI250XMI210MI300AMI300X發(fā)布時(shí)間2018.112018.112020.112021.112021.112022.32023.12023.6峰值算力（TFLOPS）FP16:26.82FP32:13.41FP16:29.49FP32:14.75FP16:184FP32:23.1FP16:362.1FP32:45.3FP16:383FP32:47.87FP16:181FP32:22.6相比MI250約有8倍提升暫無工藝制程及芯片面積7nm,331mm27nm,331mm27nm,750mm26nm,724mm26nm,724mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量25658258258214601530內(nèi)存容量16GBHBM232GBHBM232GBHBM2128GBHBM2e128GBHBM2e64GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1024GB/s1024GB/s1.2TB/s3.2TB/s3.2TB/s1.6TB/s3.2TB/s5.2TB/s熱設(shè)計(jì)功耗TDP（W）300300300500500300600700/350（air-cooled）資料來源：AMD官網(wǎng)、華泰研究2023年1月，AMD在2023CES大會(huì)上首次推出了CPU+GPU的MI300，后改稱MI300A。MI300A是MI系列的第一款CPU+GPU異構(gòu)產(chǎn)品，我們認(rèn)為CPU+GPU架構(gòu)已成為AI芯片的趨勢，鑒于AI的最終目標(biāo)是模仿人類大腦的操作，因此AI芯片也應(yīng)仿生人腦結(jié)構(gòu)，并順應(yīng)多模態(tài)模型的發(fā)展需求。如前文所述，英偉達(dá)的GraceHopper也是CPU+GPU架構(gòu)。在AI應(yīng)用里，GPU算力高，針對并行計(jì)算，在視頻處理、圖像渲染等方面的優(yōu)勢毋庸置疑，但并非所有工作負(fù)載都是單純的GPU-bound，也須由CPU進(jìn)行控制調(diào)用，發(fā)布指令。因此，在CPU+GPU架構(gòu)里的CPU可負(fù)責(zé)控制及發(fā)出指令，指示GPU處理數(shù)據(jù)和完成運(yùn)算（如矩陣運(yùn)算）。值得一提的是，MI300A的CPU，英偉達(dá)則采用了ARM架構(gòu)。我們認(rèn)為，兩者的選擇各有優(yōu)勢。一般來說，ARM架構(gòu)主要應(yīng)用于移動(dòng)端，因此相比x86能耗較低，這點(diǎn)不管在AI或是數(shù)據(jù)中心的應(yīng)用也會(huì)受到青睞。我們認(rèn)為英偉達(dá)也是看準(zhǔn)這點(diǎn)（公司也曾對ARM提出收購加上在這類CPU+GPU架構(gòu)中，CPU或僅需發(fā)揮其部分性能，如向GPU發(fā)出指令等，其他性能如AI訓(xùn)練和推理可交由GPU負(fù)責(zé)，因此ARM架構(gòu)已能勝任。反過來，x86架構(gòu)則追求高性能和擁有較豐富的指令集，在AI里也可分擔(dān)推理負(fù)載，與GPU在功能上互補(bǔ)。另外，AMD的x86CPU也主打較高能效(PerformanceperWatt)，因此也符合AI和數(shù)據(jù)中心的條件。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請務(wù)必一起閱讀。在面對不同模態(tài)數(shù)據(jù)的推理時(shí)，我們認(rèn)為CPU與GPU的分工各有不同，因此同時(shí)部署CPU和GPU能提供更大的運(yùn)算支撐。例如，在處理語音、語言和文本時(shí)，AI模型需計(jì)算有序，因此或更適合使用擅長串行運(yùn)算的CPU；但在處理圖像、視頻等推理時(shí)（對比人類在看到一幅圖片時(shí)，每一個(gè)像素同時(shí)進(jìn)入眼睛需要大規(guī)模并行運(yùn)算，更適宜由GPU負(fù)責(zé)。資料來源：AMD推特官方、華泰研究我們認(rèn)為AMD在CPU+GPU架構(gòu)具備深厚的know-how。MI300A雖是AMD的首個(gè)CPU+GPU架構(gòu)的數(shù)據(jù)中心產(chǎn)品，但其實(shí)AMD早在2011年發(fā)布的APU（AcceleratedProcessingUnit）已是CPU+GPU架構(gòu)，當(dāng)時(shí)只用于PC端。再向前追溯，我們發(fā)現(xiàn)AMD的CPU+GPU架構(gòu)理念較早有跡可循。在2006年，當(dāng)時(shí)AMD通過收購ATI獲得GPU以及芯片組技術(shù)，并在同年開展AMDFusion項(xiàng)目（即后來的APU提出將CPU和GPU集成到一顆芯片上的理念，但當(dāng)時(shí)AMD的CPU和GPU采用45nm制程，將兩者放在同一芯片上的難度較大，直到2011年，AMD發(fā)布首款A(yù)PU產(chǎn)品LIano，真正把異構(gòu)的理念落地。2017年，AMD發(fā)布的論文《DesignandAnalysisofanAPUforExascaleComputing》中討論了包含CPU、GPU和HBM內(nèi)存堆棧的APU芯片設(shè)計(jì)。資料來源：AnandTech、華泰研究資料來源：T.Vijayaraghavanetal.,"DesignandAnalysisofanAPUforExascaleComputing,"2017IEEEInternationalSymposiumonHighPerformanceComputerArchitecture（HPCA）,Austin,TX,USA,2017,pp.85-96,doi:10.1109/HPCA.2017.42.、華泰研究產(chǎn)品名稱英偉達(dá)A100PCIe｜SXMH100PCIe｜SXM｜NVLMI250XAMDMI300AMI300X發(fā)布時(shí)間2020.62022.32021.112023.12023.6峰值算力（TFLOPS）FP16:312｜624FP32:19.5FP64:19.5FP8:3,026｜3,958｜7,916FP16:1,513｜1,979｜3,958FP32:51｜67｜134FP64:51｜64｜134FP16:383FP32/64:47.9FP32/64Matrix:95.7暫無暫無工藝制程及芯片面積7nm,826mm24nm,814mm26nm,724mm25nm,1017mm25nm,1017mm2晶體管數(shù)量（億）54080058214601530內(nèi)存容量80GBHBM2e80｜80｜188GBHBM3128GBHBM2e128GBHBM3192GBHBM3內(nèi)存帶寬1.9｜2TB/s2｜3.35TB/s｜7.8TB/s3.2TB/s3.2TB/s

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

科技行業(yè)：AI芯片風(fēng)繼續(xù)吹群賢畢至花落誰家

文檔簡介

溫馨提示

最新文檔

評論

科技行業(yè)：AI芯片風(fēng)繼續(xù)吹群賢畢至花落誰家

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔