計算機行業(yè)2024年投資策略分析報告:掘金真成長_第1頁
計算機行業(yè)2024年投資策略分析報告:掘金真成長_第2頁
計算機行業(yè)2024年投資策略分析報告:掘金真成長_第3頁
計算機行業(yè)2024年投資策略分析報告:掘金真成長_第4頁
計算機行業(yè)2024年投資策略分析報告:掘金真成長_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

掘金真成長2024中期策略報告2024年6月29日核心邏輯

AI仍是A股科技行業(yè)需求最確定的增量關(guān)鍵詞:1、計算機下游各行業(yè)需求不足,預計中期及全年業(yè)績承壓2、下半年行業(yè)成本側(cè)壓力較大,降本增效預計是重中之重3、整體需求不足情況下,AI仍是下游最確定的需求和投入增量4、國內(nèi)外AI模型和應(yīng)用已處在爆發(fā)初期,國產(chǎn)化趨勢依舊勢不可擋

算力行情已進入零部件和供應(yīng)鏈環(huán)節(jié)關(guān)鍵詞:1、NV服務(wù)器整機大格局已定,國內(nèi)相關(guān)供應(yīng)鏈廠商有望從0到12、NV芯片架構(gòu)重大升級,算力零部件領(lǐng)來新機會,液冷首當其沖3、下半年預計910C發(fā)布,國內(nèi)算力供應(yīng)格局迎來新機會

科技成長股投資環(huán)境已深刻變化關(guān)鍵詞:1、新國九條后,真科技、硬科技、公司質(zhì)量成為市場首要因素2、風險偏好下降,估值趨勢:從需求到成長和業(yè)績的切換

受益標的:NV鏈:(工業(yè)富聯(lián)、淳中科技、麥格米特),鏈:(恒為科技、開普云、泰嘉股份、科技、神州數(shù)碼);鴻蒙鏈:(潤和軟件、軟通動力、智微智能、九聯(lián)科技);AI及應(yīng)用:(潤達醫(yī)療、科大訊飛、金山辦公、息、拓爾思、萬興科技);算力:(網(wǎng)宿科技、海光信息、中科曙光、浪潮信息、首都在線、拓維信息

);低空:(新晨科技、萊斯信息、四川九洲);電力:(東方電子、國能日新、國網(wǎng)信通、科遠智慧);信創(chuàng):(達夢數(shù)據(jù)、太極股份、中國軟件)。

風險提示:1)政策落地不及預期;2)AI產(chǎn)品下游需求不及預期;3)核心技術(shù)水平升級不及預期;4)全球經(jīng)濟發(fā)展的不確定性。201

AI應(yīng)用從0到1,國產(chǎn)02算力從英偉達到AI生態(tài)崛起目錄,零部件迎來大機遇03成長股的大環(huán)境已深刻變化04投資建議與風險提示3AI應(yīng)用從0到1,國產(chǎn)

AI生態(tài)崛起0141.1

部分國產(chǎn)AI大模型競爭能力已超過國際平均水平

在過去這一年里,大模型及生成式AI工具爆發(fā)式增長,正改變著傳統(tǒng)工作流程,重塑各行各業(yè)。沙利文發(fā)布的《2024年中國?模型能?評測》對國內(nèi)主流的15個大模型進行了橫評,從而將中國大模型分成了三個梯隊。如下圖所示,百度、騰訊、阿里等互聯(lián)網(wǎng)大廠旗下大模型位于第一梯隊,綜合表現(xiàn)更為優(yōu)異。其中,文心一言能力最為全面,五項評測維度均為優(yōu)勢能力,并取得四項第一。根據(jù)國家數(shù)據(jù)局3月25日發(fā)布的最新工作報告,中國10億參數(shù)規(guī)模以上的大模型數(shù)量已超100個,行業(yè)大模型深度賦能電子信息、醫(yī)療、交通等領(lǐng)域,形成上百種應(yīng)用模式,賦能千行百業(yè)。大模型綜合競爭力氣泡圖51.2AI模型百舸爭流,海外模型迭代持續(xù)領(lǐng)先

OpenAI

GPT

系列模型是自然語言處理領(lǐng)域的重大突破,其中ChatGPT

GPT-4

是兩個代表性模型。ChatGPT

專注于對各種文本指令做出回應(yīng),模型的訓練過程包括有監(jiān)督的指令微調(diào)與強化學習。現(xiàn)在的

ChatGPT

支持最長達

32000

個字符,它可以執(zhí)行各種任務(wù),包括代碼編寫、數(shù)學問題求解、寫作建議等。

多模態(tài)大模型方面,從Google家族的Gemini到open

ai家族的sora,進一步顛覆模型生態(tài)。海內(nèi)外大模型相關(guān)研究與產(chǎn)品競相涌現(xiàn)、加速迭代,進入“百舸爭流”的新時代。在大模型的神奇“模力”下,指令和語料得以轉(zhuǎn)化為現(xiàn)實生產(chǎn)力,有望賦能千行百業(yè),被視為通向通用人工智能的潛在路徑。2018-2023年模型參數(shù)規(guī)模變化圖全球AI主要產(chǎn)品訪問量總榜61.2.1

open

AI多模態(tài)大模型完成進階,LLaMA開源模型重構(gòu)AI生態(tài)

從大語言模型到多模態(tài)模型,Openai完成模型時代進階。從GPT-1到GPT-4O,模型的參數(shù)規(guī)模不斷擴大,預訓練數(shù)據(jù)不斷增加,性能也不斷提升。2024

2

15

日,曾在

2022

年底發(fā)布

ChatGPT

驚艷世界的

OpenAI,再次憑借

Sora

的亮相震驚世界。Sora整合了自家的GPT和DALL-E模型。其中,GPT-4就是基于Transformer架構(gòu)的大型神經(jīng)網(wǎng)絡(luò),目前在自然語言處理領(lǐng)域獨樹一幟,而最新的DALL-E

3是基于文本提示生成圖像的圖像生成模型。

LLaMA(Large

Language

ModelMetaAI)是由Meta(原Facebook)推出的開源大語言模型系列。與GPT系列不同,LLaMA的一個重要特點是其開源性質(zhì),這為研究人員和開發(fā)者提供了寶貴的資源,推動了整個領(lǐng)域的快速發(fā)展。LLaMA模型的訓練采用了一些創(chuàng)新的技術(shù),如使用貝葉斯網(wǎng)絡(luò)密度縮放和SwiGLU激活函數(shù)等,這些技術(shù)使得LLaMA能夠在相對較小的參數(shù)規(guī)模下實現(xiàn)強大的性能。例如,LLaMA-13B(130億參數(shù))在某些任務(wù)上的表現(xiàn)可以媲美甚至超越GPT-3(1750億參數(shù))。openAI歷代版本更新時間軸LLaMA家族版本更新時間7資料:超級AI大腦,

Datawhale,華西證券研究所1.2.2Anthropic公司發(fā)布Claude

3.5

Sonnet,部分能力已超越GPT-4o

近日,Anthropic公司發(fā)布了Claude

3.5Sonnet,其優(yōu)秀的表現(xiàn)震撼了整個AI技術(shù)圈。作為OpenAI的勁敵,Anthropic本次發(fā)布的是Claude3.5系列模型的首個版本,也是Anthropic迄今為止發(fā)布的“最強大、最智能”的模型。有消息稱,在關(guān)鍵基準測試中在推理、語言、編程、數(shù)據(jù)分析、數(shù)學和指令遵循方面均超越了GPT-4o及其前身Opus。

PaLM

系列語言大模型由

Google

開發(fā),其初始版本于

2022年

4月發(fā)布,并在

2023年

3月公開了

API。PaLM

基于

Google提出的Pathways

機器學習系統(tǒng)搭建,訓練數(shù)據(jù)總量達

780B

個字符,內(nèi)容涵蓋網(wǎng)頁、書籍、新聞、開源代碼等多種形式的語料。目前

PaLM

共有8B、62B、540B

三個不同參數(shù)量的模型版本。Google

還開發(fā)了多種

PaLM

的改進版本。Med-PaLM

PaLM540B在醫(yī)療數(shù)據(jù)上進行了微調(diào)后的版本,在

MedQA等醫(yī)療問答數(shù)據(jù)集上取得了最好成績。PaLM-E

PaLM

的多模態(tài)版本,能夠在現(xiàn)實場景中控制機器人完成簡單任務(wù)。2023

5

月,Google

發(fā)布了

PaLM

2,但并未公開其技術(shù)細節(jié)。Google

內(nèi)部文件顯示其參數(shù)量為

340B,訓練數(shù)據(jù)為PaLM

5倍左右。Claude大模型更新版本時間PALM大模型更新版本時間81.3

OpenAI全面封鎖國內(nèi)API,國產(chǎn)AI模型迎來全新發(fā)展

6月25日,OpenAI向中國用戶發(fā)布郵件:自7月9日起阻止來自非支持國家和地區(qū)的API流量,受影響組織若希望繼續(xù)使用OpenAI的服務(wù),必須在其支持的國家或地區(qū)內(nèi)訪問。

從技術(shù)角度來看,國內(nèi)頭部大模型和OpenAI的差距在縮小。在OpenCompass大模型榜單中,前10家大模型中,OpenAI依然占據(jù)第一、第二的位置,但中國也占到了兩席的地位,其中就有阿里的通義千問系列,也就是Qwen系列。目前來看,國內(nèi)的大模型分為兩大競爭板塊。一塊是巨頭企業(yè),包括:阿里通義,百度文心、訊飛星火、盤古、字節(jié)豆包、騰訊混元、昆侖萬維天工等大模型;一塊是創(chuàng)業(yè)新秀,包括零一萬物、智譜、月之暗面、MiniMax、零一萬物和百川智能等初創(chuàng)公司。國產(chǎn)大模型移動端下載量(次數(shù))國內(nèi)AI產(chǎn)品在6月第三周的排行榜數(shù)據(jù)(訪問量數(shù)據(jù))3,500,0006,000,0005,000,0004,000,0003,000,0002,000,0001,000,000-3,000,0002,500,0002,000,0001,500,0001,000,000500,000-訊飛星火每日新增下載量智譜清言每日新增下載量天工每日新增下載量(右軸)文心一言每日新增下載量豆包每日新增下載量(右軸)kimi每日新增下載量9資料:

七麥小程序,AI數(shù)智源,華西證券研究所1.3.1

百度文心一言迅猛成長,通義千問2.5的得分已與GPT-4

Turbo平分秋色

百度文心一言迅猛成長,引領(lǐng)國產(chǎn)模型發(fā)展。從去年3月文心一言發(fā)布到如今的文心大模型4.0版本,用戶們見證了文心一言的迅猛成長,這不僅代表的是搜索平臺、工具的迭代升級,更是人們對信息獲取、理解和應(yīng)用的一次全面革新。在過去這一年里,大模型及生成式AI工具爆發(fā)式增長,正改變著傳統(tǒng)工作流程,重塑各行各業(yè)。百度創(chuàng)始人、CEO李彥宏在今年3月的財報會議上提到,文心大模型的日調(diào)用量已超過5000萬次,大約有2.6萬家企業(yè)調(diào)用文心大模型,每1分鐘企業(yè)調(diào)用文心大模型的次數(shù)超過3.4萬次。

通義千問的發(fā)展一日千里。自2022年4月首次亮相以來,通義千問始終堅持專注于基礎(chǔ)模型的技術(shù)研發(fā),從最初的1.0版本迭代升級到如今的2.5版本,展現(xiàn)了驚人的進化之速。通義千問2.5較上一版本在理解能力、邏輯推理、指令遵循、代碼能力等方面實現(xiàn)了全方位的提升,尤其是在中文能力上更是一騎絕塵,遙遙領(lǐng)先于其他模型。權(quán)威基準Open

Compass的測評結(jié)果顯示,通義千問2.5的得分已與GPT-4

Turbo平分秋色,這是國產(chǎn)大模型在該基準上取得的最好成績。百度大模型歷代更新時間軸阿里大模型歷代更新時間軸資料:

百度百科,AI信息GAP,華西證券研究所101.3.2騰訊混元底層模型的持續(xù)迭代,豆包產(chǎn)品訪問量穩(wěn)居前十

騰訊混元底層模型的持續(xù)迭代。騰訊元寶是一個基于混元大模型及搜索引擎驅(qū)動的高效信息整合工具,界面設(shè)計簡潔,可以搜索實時信息,也可以對上傳的多格式文檔進行總結(jié)、翻譯,還能語音對話練習口語。根據(jù)機器之心,自

2023

9

月首次亮相以來,騰訊混元大模型的參數(shù)規(guī)模已從千億升級至萬億,預訓練語料從萬億升級至

7

萬億

tokens,并率先升級為多專家模型結(jié)構(gòu)(MoE),整體性能相比

Dense

版本提升超

50%。

豆包大模型原名“云雀”,產(chǎn)品訪問量穩(wěn)居前十。字節(jié)跳動基于豆包大模型打造了

AI對話助手“豆包”、AI

應(yīng)用開發(fā)平臺“扣子”等多款AI創(chuàng)作工具,并把大模型接入抖音、番茄小說、飛書、巨量引擎等

50余個業(yè)務(wù),用以提升效率和優(yōu)化產(chǎn)品體驗。根據(jù)字節(jié)跳動招聘,截至5月,豆包大模型日均處理

1200

tokens

文本、生成

3000

萬張圖片?;诙拱竽P屯蛟斓亩拱?/p>

APP,是字節(jié)跳動重點投入的大模型應(yīng)用。在蘋果

APP

Store

和各大安卓應(yīng)用市場,豆包

APP

的下載量在

AIGC

類應(yīng)用中排名第一。豆包上已有超過

800萬個智能體被創(chuàng)建,月度活躍用戶達到

2600

萬。騰訊大模型歷代更新時間軸字節(jié)跳動AI產(chǎn)品分類111.3.3訊飛星火V4.0完成對GPT-4Turbo的整體超越,盤古5.0發(fā)布

訊飛星火V4.0發(fā)布,完成對GPT-4

Turbo的整體超越。今年1月底,星火大模型

V3.5在語言理解、數(shù)學能力方面超過了GPT-4

Turbo,但代碼、多模態(tài)等其他能力依然與后者存在一些差距。星火大模型V4.0再次進化,不僅在文本生成、語言理解、知識問答、邏輯推理和數(shù)學五大能力方面完成了對GPT-4

Turbo的整體超越,并進一步縮小了在代碼、多模態(tài)能力方面的差距,尤其是多模態(tài)能力達到了后者97%的水平。

盤古5.0:5+N+X的三層解耦架構(gòu),靈活滿足不同行業(yè)客戶的需求。6月21日,開發(fā)者大會發(fā)布盤古5.0,此次發(fā)布的盤古大模型5.0預計將帶來一系列重磅升級,為用戶帶來更加智能、高效的服務(wù)。盤古大模型5.0不僅在自然語言處理(NLP)領(lǐng)域有著顯著的提升,還將在計算機視覺(CV)、科學計算、預測等多個領(lǐng)域應(yīng)用。其強大的數(shù)據(jù)處理能力和精準的算法模型,將為各行各業(yè)的數(shù)據(jù)分析和決策支持提供強有力的技術(shù)支撐。訊飛大模型歷代更新時間軸盤古大模型歷代更新時間軸121.3.4

kimi長文本大模型累計下載量持續(xù)攀升,智譜AI致力于打造新一代認知智能大模型

Kimi:國產(chǎn)長文本大模型之光,累計下載量持續(xù)攀升。Kimi大模型,作為月之暗面科技有限公司(Moonshot

AI)的杰出成果,是一款集成了多種先進技術(shù)的智能對話系統(tǒng)。它不僅能夠理解用戶的自然語言輸入,還能提供豐富、詳盡的回答,滿足用戶在多種場景下的需求。根據(jù)騰訊科技,kimi上線的時間是2023年10月,當時可以支持無損上下文長度最多為20萬漢字。今年,在5個月的時間內(nèi),月之暗面直接將長文本能力提高10倍。

智譜AI致力于打造新一代認知智能大模型,專注于做大模型的中國創(chuàng)新。公司于2020年底開始研發(fā)

GLM

預訓練架構(gòu),并訓練了百億參數(shù)模型GLM-10B,2021年利用MoE架構(gòu)成功訓練出萬億稀疏模型,于2022年合作研發(fā)了雙語千億級超大規(guī)模預訓練模型GLM-130B,并基于此千億基座模型打造大模型平臺及產(chǎn)品矩陣。kimi大累計下載量質(zhì)譜清言大模型功能kimi累計下載量(次)350000003000000025000000200000001500000010000000500000002024/1/142024/2/142024/3/142024/4/142024/5/142024/6/14131.4.1服務(wù)器構(gòu)筑世界AI算力第二選擇,期待910C

目前已具備“端、邊、云”的產(chǎn)品布局:

AI

服務(wù)器:AI服務(wù)器分為推理服務(wù)器和訓練服務(wù)器:3000

系列和

9000

系列。訓練側(cè),算力精度要求較高,Atlas

800

訓練服務(wù)器(型號:9010)基于

Intel處理器+昇騰

910芯片,

具有超強算力密度、高速網(wǎng)絡(luò)帶寬等特點,AI

算力可達

2.24

PFLOPS@FP16。

AI

處理器:AI處理器有昇騰

310和昇騰

910兩款:910

支持全場景人工智能應(yīng)用,昇騰

310主

要用在邊緣計算等低功耗的領(lǐng)域。與英偉達對比,昇騰

910

半精度算力(FP16)達

320TFLOPS,約為英偉達

V100芯片算力(130TFLOPS)的

2.5倍,與英偉達

A100算力(312

TFLOPS,

未采用稀疏技術(shù))水平相當。根據(jù)集成電路IC消息,

旗下昇騰910C芯片正處于緊張的測試階段。發(fā)布了全新一代計算集群

Atlas

900SuperCluster

CANN7.0

異構(gòu)計算架構(gòu)。SuperCluster

可支持超萬億參數(shù)大模型訓練,采用

了最新一代的星河

AI智算交換機

CloudEngine

XH16800,該交換機具備高密度的

800GE

端口能力,使得只需要兩層交換網(wǎng)絡(luò)即可構(gòu)建一個擁有

2250

個節(jié)點的超大規(guī)模集群,相當于

18000

張計算卡的規(guī)模,為開發(fā)者提供了更多的自定義高性能算力的可能性。Atlas全系列產(chǎn)品AI服務(wù)器產(chǎn)品參數(shù)AI服務(wù)器型號形態(tài)CPUAI處理器Ai算力最大支持8個2UAI服務(wù)器

2*鯤鵬

920

Atlas300I推最大704

TOPS30003010INT8理卡Atlas800推理服務(wù)器1/2個Intel?

Xeon?

最大支持7個2UAI服務(wù)器

SPSkylake

Atlas300I推最大616

TOPSINT8或Cascade理卡Lake處理器1.76/2.24PFLOPSFP16900090104UAI服務(wù)器

4*鯤鵬

920

8*昇騰910Atlas800訓練服務(wù)器2*IntelV51.76/2.24PFLOPSFP164UAI服務(wù)器Cascaded8*昇騰910Lake處理器141.4.2國產(chǎn)生態(tài)—鴻蒙OS:國產(chǎn)操作系統(tǒng)先進龍頭,擁抱萬物互聯(lián)

鴻蒙系統(tǒng)(HarmonyOS、鴻蒙OS)是音箱、耳機、手表/手環(huán)、平板、大屏、PC、AR/VR)

N(泛IOT設(shè)備)戰(zhàn)略,開創(chuàng)了全新局面,OpenHarmony是其對應(yīng)的開源項目。

公司在2019年8月正式發(fā)布HarmonyOS,實行開源HarmonyOS通過創(chuàng)造一個超級虛擬終端互聯(lián)的世界,將人、設(shè)備、場景推出的一款面向萬物互聯(lián)的全場景分布式操作系統(tǒng):1+8+N戰(zhàn)略,即1(手機)

8(車機、有機地聯(lián)系在一起,將消費者在全場景生活中接觸的多種智能終端,實現(xiàn)極速發(fā)現(xiàn)、極速連接、硬件互助、資源共享,用合適的設(shè)備提供場景體驗。

根據(jù)techweb和博云,2024Q1在中國智能手機市場,鴻蒙操作系統(tǒng)的份額達到17%,開發(fā)者超過220萬人,鴻蒙生態(tài)已經(jīng)與iOS、安卓形成了“三分天下”的格局,成為當下的風口。鴻蒙發(fā)展歷程151.4.2國產(chǎn)生態(tài)—純血鴻蒙發(fā)布,生態(tài)全面啟動

鴻蒙市場份額快速攀升:CounterPoint的報告顯示,2024年第一季度,鴻蒙系統(tǒng)在全球市場的份額從2%增長到4%,而在中國市場的份額則爆增至17%。同期,蘋果iOS在中國智能手機操作系統(tǒng)市場的份額則下降了四個百分點,降至16%,這也就標志著鴻蒙系統(tǒng)在中國市場的市占率正式超越了iOS。

純血鴻蒙值得期待:根據(jù)TechWeb,備受矚目的開發(fā)者大會2024(HDC

2024)將于本月21日至23日在東莞松山湖召開。此次大會不僅是全球開發(fā)者與科技創(chuàng)新者的年度盛會,更將帶來HarmonyOS

NEXT鴻蒙星河版的正式發(fā)布,并進入Beta測試階段,引領(lǐng)“純血鴻蒙”向正式商用邁出關(guān)鍵一步。

鴻蒙+AI打開全新國產(chǎn)化生態(tài):HarmonyOS

NEXT作為操作系統(tǒng)家族的最新力作,被寄予厚望。該版本不僅在系統(tǒng)性能、安全性和用戶體驗上進行了全面升級,還深度融合了

云盤古大模型5.0,為開發(fā)者提供了更為強大的AI開發(fā)能力和豐富的應(yīng)用場景。HarmonyOS

NEXT的發(fā)布預示著將進一步鞏固其在物聯(lián)網(wǎng)生態(tài)建設(shè)中的領(lǐng)先地位,推動構(gòu)建全場景智慧化生活的新篇章。中國手機操作系統(tǒng)市場份額HarmonyOSNEXT即將發(fā)布161.4.3

國產(chǎn)生態(tài)—生態(tài)參與者逐漸壯大,HarmonyOS

NEXT首次將AI能力融入系統(tǒng)

星河璀璨,加入鴻蒙正當時:在6月21日,在主題演講中,常務(wù)董事、終端BG董事長、智能汽車解決方案BU董事長余承東分享了鴻蒙生態(tài)的最新進展。HarmonyOS操作系統(tǒng)從2019年8月9日正式發(fā)布,歷時1778天,歷經(jīng)4代,鴻蒙生態(tài)設(shè)備數(shù)量已超過9億,已有254萬

HarmonyOS開發(fā)者投入到鴻蒙世界的開發(fā)中來,鴻蒙學堂學習人次435萬,開發(fā)者服務(wù)調(diào)用次數(shù)827億次/月。鴻蒙原生應(yīng)用已進入全面沖刺階段,

5000多個常用應(yīng)用已全部啟動開發(fā),其中超過1500家已完成上架。

Harmony

Intelligence正式發(fā)布:HarmonyOS

NEXT首次將AI能力融入系統(tǒng),賦能生態(tài)。小藝升級為小藝智能體,可執(zhí)行更復雜的操作,并在端云大模型協(xié)同和意圖框架的加持下獲得更好的場景感知、意圖識別和用戶理解能力,能夠幫助用戶更好地獲取所需個性化服務(wù)。HarmonyOS

NEXT也為鴻蒙生態(tài)帶來了強大的AI能力,圍繞圖像智能、通話智能、文檔智能、跨應(yīng)用協(xié)同等,開放給應(yīng)用的AI能力,和開發(fā)者共同打造生態(tài)級的鴻蒙原生智能。全面構(gòu)筑了鴻蒙生態(tài),星河璀璨示意圖171.4.4

國產(chǎn)生態(tài)—

盤古5.0大模型正式發(fā)布,重塑千行萬業(yè)

盤古5.0大模型正式發(fā)布,重塑千行萬業(yè):6

21

日,開發(fā)者大會

2024(HDC

2024)正式揭幕,常務(wù)董事、云

CEO張平安重磅發(fā)布盤古大模型

5.0,在全系列、多模態(tài)、強思維三個方面全新升級。在過去的一年中,盤古大模型持續(xù)深耕行業(yè),已在30多個行業(yè)、400

多個場景中落地,在政務(wù)、金融、制造、等領(lǐng)域發(fā)揮著巨大價值。

全系列:盤古大模型

5.0包含不同參數(shù)規(guī)格的模型,以適配不同的業(yè)務(wù)場景。十億級參數(shù)的

PanguE系列可支撐手機、PC

等端側(cè)的智能應(yīng)用;百億級參數(shù)的

PanguP系列,適用于低時延、低成本的推理場景;千億級參數(shù)的

PanguU系列適用于處理復雜任務(wù),可以成為企業(yè)通用大模型的底座;萬億級參數(shù)的

PanguS系列超級大模型是處理跨領(lǐng)域多任務(wù)的超級大模型夠在全場景應(yīng)用

AI技術(shù)。

多模態(tài):盤古大模型

5.0能夠更好更精準地理解物理世界,包括文本、圖片、視頻、5.0,可以生成符合物理世界規(guī)律的多模態(tài)內(nèi)容,讓創(chuàng)新隨心所欲。、紅外、遙感等更多模態(tài)。在生成方面,盤古

強思維:復雜邏輯推理是大模型成為行業(yè)助手的關(guān)鍵。盤古大模型

5.0將思維鏈技術(shù)

與策略搜索技術(shù)深度結(jié)合,極大提升了數(shù)學能力、復雜任務(wù)規(guī)劃能力。盤古大模型5.0示意圖181.4.5

國產(chǎn)生態(tài)—盤古+鴻蒙星河+麒麟+昇騰+鯤鵬打造最強生態(tài)

打響關(guān)鍵自主可控保衛(wèi)戰(zhàn),自主可控勢在必行:手機等終端,蘋果擁有其自己的A系列手機芯片和M系列的PC芯片、操作系統(tǒng)擁有IOS等系統(tǒng)、云端可配備英偉達、AMD等AI算卡、大模型側(cè)擁有Apple

Intelligence

其中集成了ChatGPT。AI

PC端,海外擁有Intel、AMD、高通等端側(cè)AI

PC芯片,操作系統(tǒng)為Winodws,目前融入了Copilot等AI功能。自2018年來,美國通過多種制裁手段,嚴重限制我國高科技領(lǐng)域發(fā)展,因此對于關(guān)鍵高科技領(lǐng)域自主可控勢在必行。

盤古+鴻蒙星河+麒麟+昇騰+鯤鵬打造國產(chǎn)最強生態(tài):我們判斷AI端側(cè)爆發(fā)為產(chǎn)業(yè)趨勢,AI應(yīng)用離落地更進一步,因此國產(chǎn)領(lǐng)域中擁有最完整的生態(tài),軟件端,盤古可賦能千行百業(yè),鴻蒙可實現(xiàn)萬物互聯(lián),例如,智慧屏、穿戴設(shè)備、車機、音箱、手機等,硬件端,端側(cè),麒麟已重回巔峰,鯤鵬+昇騰有望構(gòu)筑全球算力體系的第二極,因此我們判斷在終端爆發(fā)元年,麒麟+昇騰+鯤鵬最強生態(tài)領(lǐng)銜演繹國產(chǎn)軟硬件生態(tài)崛起。有望憑借盤古+鴻蒙星河+操作系統(tǒng)將廣泛應(yīng)用于萬物互聯(lián)領(lǐng)域1+8+N戰(zhàn)略應(yīng)用程序框架方舟編譯器多終端開發(fā)IDE基礎(chǔ)服務(wù)內(nèi)核鴻蒙:微內(nèi)核1902

算力從英偉達到

,零部件迎來大機遇202.1英偉達架構(gòu)持續(xù)升級,升級迭代速度明顯加快

平均兩年架構(gòu)升級,目的是維持在GPU霸主地位:根據(jù)CSDN數(shù)據(jù),英偉達14年期間發(fā)布8款芯片架構(gòu),我們判斷芯片架構(gòu)的持續(xù)升級有望維護其在GPU市場的龍頭地位。英偉達GPU發(fā)展時間表

英偉達架構(gòu)升級速度明顯加快:此前,根據(jù)財聯(lián)社以及SemiAnalysis消息,預計在H200芯片架構(gòu)后,B100將于2024年第三季度開始量產(chǎn),部分早期樣品將于明年第二季度出貨。而GH200和H200也是于2023年開始問世,同時,AMD也推出了MI300AI算力芯片,谷歌直接表示要打造自己的人工智能基礎(chǔ)設(shè)施,其TPUv5和TPUv5e可用于內(nèi)部培訓和推理,還供蘋果、Anthropic、CharacterAI等公司客戶使用。我們判斷英偉達架構(gòu)升級明顯處于加速狀態(tài)。英偉達全新產(chǎn)品架構(gòu)升級圖資料:

CSDN,財聯(lián)社,SemiAnalysis,華西證券研究所212.2英偉達GPU架構(gòu)瘋狂加速,確定下一代架構(gòu)為Robin架構(gòu)

黃仁勛宣布下一代AI芯片為Robin架構(gòu):2024年6月2日晚,英偉達CEO黃仁勛在中國臺北國際電腦展(COMPUTEX

2024)上表示,將在2026年推出下一代AI芯片平臺Rubin,作為對現(xiàn)有Blackwell平臺的迭代,Rubin

AI平臺將采用HBM4記憶芯片。Rubin平臺的產(chǎn)品包括,Rubin

GPU(8S

HBM4)、Vera

CPU等

英偉達GPU架構(gòu)瘋狂加速:在演講中,黃仁勛介紹了關(guān)于芯片產(chǎn)品年度升級周期的計劃。黃仁勛表示,英偉達將堅持數(shù)據(jù)中心規(guī)模、一年節(jié)奏、技術(shù)限制、一個架構(gòu)的路線,即堅持運用當時性能最強的半導體制程工藝,以一年為節(jié)奏更新產(chǎn)品,用統(tǒng)一架構(gòu)覆蓋整個數(shù)據(jù)中心產(chǎn)品線,具體來看,2024年,Blackwell芯片現(xiàn)已開始生產(chǎn);2025年,將推出Blackwell

Ultra產(chǎn)品;2026年,將推出Rubin產(chǎn)品2027年,將推出Rubin

Ultra產(chǎn)品。英偉達黃仁勛在中國臺北的工Computex2024展示英偉達架構(gòu)升級示意圖222.3英偉達Q1業(yè)績超預期,Blackwell出貨時間為最大亮點

英偉達Q1業(yè)績超預期,原因是Hopper架構(gòu)的強勢需求:英偉達第一季度收入達到創(chuàng)紀錄的

260億美元,環(huán)比增長

19%,遠高于市場245億美元的預期。創(chuàng)歷史新高。原因是數(shù)據(jù)中心推動的快速成長,數(shù)據(jù)中心推動英偉達成長,該業(yè)務(wù)第一季度營收達226億美元,強于分析師預期的221億美元,環(huán)比增長23%,同比增長427%,原因是Hopper架構(gòu)的強勁需求。

公司給予第二季度樂觀指引,Blakcwell出貨時間為最大亮點:英偉達預計下一季度營收為280億美元,上下浮動2%,強于分析師預期的268億美元。GAAP和非GAAP毛利率預計分別為74.8%和75.5%,上下浮動50個基點。同時,根據(jù)超微電腦指引,超微電腦Q1收入為38.5億美元,下一季度指引為51-55億美元收入,原因是AI的強勢需求。此外,公司在業(yè)績會上透露,公司Blackwell架構(gòu)已經(jīng)全面投入生產(chǎn),公司預計第二季度開始供貨,第三季度加速,客戶數(shù)據(jù)中心在第四季度建立。我們判斷Blackwell出貨時間超出市場預期。英偉達季度總收入及市場一致預期(百萬美元)數(shù)據(jù)中心實際收入與預期收入對比232.4GB200

NVL72震撼出世,其為性能怪獸

GB200

NVL

72震撼出世,其為性能怪獸:在英偉達GTC大會上,基于

Blackwell的

AI

算力將以名為

DGXGB200的完整服務(wù)器形態(tài)提供給用戶,結(jié)合了

36

NVIDIAGraceCPU

72

BlackwellGPU。這些超級芯片通過第五代

NVLink連接成一臺超級計算機(后文簡稱

GB200NVL

72)。與相同數(shù)量的

72

H100相比,GB200NVL72的性能絕對是逆天的存在,大模型推理性能可以提升

30

倍,并且成本和能耗只有前者的

1/25。英偉達NVL72規(guī)格

此為全機架式解決方案:有

18個

1U

服務(wù)器。其提供的FP8性能為

720petaflops,F(xiàn)P4

計算性能為

1440petaflops,可處理多達

27萬億個

AI

LLM參數(shù)模型。每臺服務(wù)器里帶有兩個

GB200GraceBlackwellSuperchip,這些計算節(jié)點帶有

1.7TB

HBM3E內(nèi)存、32TB/s

的內(nèi)存帶寬,并且全部采用液冷

MGX封裝。

然而由于功耗過大,需要采用液冷,內(nèi)部采用銅互聯(lián)形式。資料:

英偉達官網(wǎng),華西證券研究所242.5深度拆解英偉達

DGXHopper架構(gòu)零部件價格

英偉達DGXH100零部件價格拆解:

AI服務(wù)器中的主要元器件包括

CPU、GPU板組、內(nèi)存、硬盤、網(wǎng)絡(luò)接口卡組成,配合電源、主板、機箱、散熱系統(tǒng)等基礎(chǔ)硬件以提供信息服務(wù)。根據(jù)SemiAnalysis,AI

服務(wù)器(以

NvidiaDGX

H100為例)總成本為

26.9

萬美元,其核心組件按

BOM

占比由高到低依次為

GPU板組、SmartNIC、DRAM、CPU、NAND、電源、主板、機箱和散熱,BOM

占比分別為

72.5%、4.1%、2.9%、1.3%、0.4%、0.3%、0.2%、0.2%,相較標準

CPU服務(wù)器(以

2xIntelSapphireRapidsServer

為例),Nvidia

DGXH100

單機總成本提升

25.7

倍。

英偉達Blackwell架構(gòu)出世,GB200

NVL72核心零部件升級為最大亮點:我們判斷GB

200NVL

72不同于H100等8卡DGX服務(wù)器,其零部件價值量占比有望提升,其重點在于CPU、銅連接、液冷模組、電源板塊。英偉達

DGXH100BOM成本一覽英偉達

DGXH100零部件示意圖組件價格(美元)5200占比1.93%72.49%2.92%1.28%4.05%0.21%0.33%0.17%0.45%0.55%15.61%100.00%CPU8GPU+4NVSwitchBaseboard內(nèi)存DRAM1950007860硬盤NAND3456網(wǎng)卡SmartNIC機箱(外殼、背板、電纜)主板10908563875散熱(散熱器+風扇)電源4631200組裝測試1485Markup42000269010總成本資料:

SemiAnalysis,DCD,華西證券研究所252.6.1

高速互聯(lián)時代,銅互聯(lián)價值凸顯

GB200發(fā)布,銅互聯(lián)為最大增量之一:

根據(jù)GTC大會,GB200

NVL72采用NV

link互聯(lián)方式,具有5000根NVLink銅纜(合計長度超2英里)。而英偉達自身對于DAC

銅纜的描述為NVIDIA?

Mellanox?LinkX?網(wǎng)

DAC

銅纜是在網(wǎng)交換網(wǎng)絡(luò)和基于

NVIDIAGPU的系統(tǒng)中創(chuàng)建高速

100G-400G

鏈路的成本最低的方式。亮點在于成本、功耗、延遲都極低。其端口速度可達到400Gb/s。

DAC高速線纜在短距離信號傳輸價值凸顯:DAC(高速線纜)可直接通過銅電纜傳輸電信號。無源DAC無需任何信號調(diào)節(jié)即可實現(xiàn)此目的,通常,DAC電纜用于連接機架內(nèi)的交換機、服務(wù)器和存儲設(shè)備來進行堆疊。而從功耗來看,其功耗明顯小于AOC,傳輸距離小于7M。有源光纜

(AOC)由兩端帶有

光收發(fā)器的多模光纖電纜組成。

它依靠外部電源來促進信號的轉(zhuǎn)換,從電信號轉(zhuǎn)換到光信號,然后再轉(zhuǎn)換回電信號。

從廣義上講,AOC

電纜主要用于連接位于數(shù)據(jù)中心內(nèi)單獨機架中的交換機、服務(wù)器和存儲設(shè)備。由于AOC本身進行光與電信號的轉(zhuǎn)換,因此其成本和功耗顯著大于DACDAC和AOC的區(qū)別DAC銅纜示意圖有源光纜AOC示意圖DAC<1WAOC1-3W功耗傳輸距離傳輸介質(zhì)傳輸信號<7M<300M光纖銅纜電信號光信號光纖的價格比銅高,另外A0C兩端含有激光器而DAC沒有,所以A0C的價格比DAC高很多;價格重量體積資料同樣長度下,AOC的體積重量要比DAC的體積重量小很多:

21經(jīng)濟時代網(wǎng),CSDN,華西證券研究所262.6.2

GB200發(fā)布,銅互聯(lián)為最大增量之一

H100系列中銅互聯(lián)方式較少:

我們判斷,由于H100沒有機柜內(nèi)互聯(lián),而是單獨配置網(wǎng)絡(luò)機柜,因此幾乎沒有短距銅互聯(lián),然而連接器依舊作為服務(wù)器重要組成部分,我們認為其價值量占比相較于GB200

NVL72相比較低。

GB200

NVL72中銅互聯(lián)價值凸顯:原因在于其短距離更具成本和傳輸優(yōu)勢,GB200

NVL72具有內(nèi)部線纜和外部線纜,外部線纜主要負責鏈接機柜與機柜之間,而內(nèi)部線纜連接方式呈現(xiàn)多樣化。DGXH100

連接器示意圖GB200NVL72高速銅纜示意圖GB200NVL72高速銅纜示意圖資料:

華碩電腦,芯語,華西證券研究所272.7.1

算力在大模型時代迎來爆發(fā),高算力與高功耗相匹配

AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配:復盤英偉達數(shù)據(jù)中心芯片產(chǎn)品,其中明顯可以看到其芯片算力和芯片的功耗成明顯的正相關(guān)。AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配架構(gòu)型號規(guī)格英偉達Volta架構(gòu)V100英偉達Turing架構(gòu)T4英偉達Ampere架構(gòu)V100sPCIeA100A800PCIePCIeSXM2PCIeSXMPCIeSXMNVIDIAAmpereNVIDIAAmpere芯片架構(gòu)NVIDIAVoltaNVIDIAVoltaNVIDIAVoltaNVIDIATuringNVIDIAAmpere

NVIDIAAmpereNVIDIAAmpere顯存顯存帶寬32GB或16GBHBM2

32GB或16GBHBM232GBHBM21134GB/s8.2TFLOPS16GBGDDR6320GB/S80GBHBM2e1935GB/s80GBHBM2e2039GB/s40GBHBM2

80GBHBM2e1555GB/s

1935GB/s80GBHBM2e2039GB/s900GB/s7TFLOPS900GB/sFP64算力7.8TFLOPS254.4GFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS

9.7TFLOPS19.5TFLOPS

19.5TFLOPS19.5TFLOPS

19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPSFP64TensorCoreFP32算力14TFLOPS15.7TFLOPS125TFLOPS16.4TFLOPS8.1TFLOPS65TFLOPSFP32算力(Tensor)TensorFloat32(TF32)TF32(TensorCore)FP16算力(TensorCore)BFLOAT16(TensorCore)FP8(TensorCore)INT8算力

(TensorCore)CUDA核心數(shù)量156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS

156TFLOPS312TFLOPS

312TFLOPS312TFLOPS

312TFLOPS312TFLOPS

312TFLOPS156TFLOPS312TFLOPS312TFLOPS312TFLOPS-112TFLOPS130TFLOPS--624TOPS6912432130TOPS2560320624TOPS624TOPS624TOPS624TOPS51206406912432TensorCores核心數(shù)量功耗250瓦300瓦211250瓦70瓦136300瓦400瓦250瓦300瓦542400瓦晶管數(shù)量(億)制成(nm)5427nm12nm12nm7nmNVLink:600GB/sPCIe4.0:64GB/sNVLink:600GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/s互聯(lián)速度32GB/s300GB/s32GB/s32GB/S282.7.1

算力在大模型時代迎來爆發(fā),高算力與高功耗相匹配

AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配:從下圖可以看到,英偉達GB200單芯片組的功耗為2700W。AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配架構(gòu)型號英偉達Hopper架構(gòu)H800Blackwell架構(gòu)B200H100PCIeH200SXMGH200B100GB200規(guī)格SXMNVLSXMNVIDIAHopperPCIe芯片架構(gòu)NVIDIAHopper

NVIDIAHopper

NVIDIAHopperNVIDIAHopperNVIDIAHopperNVIDIAHopper+ARMNVDIABlakwellNVDIABlakwellNVDIABlakwell顯存顯存帶寬80GBHBM33.35TB/s34TFLOPS67TFLOPS67TFLOPS80GBHBM2e2TB/s188GBHBM37.8TB/s80GBHBM380GB

HBM32TB/s141GBHBM3e4.8TB/s96GB|144GBHBM3e512GB/s(CPU)34TFLOPS192GB8TB/s192GB8TB/s384GB3.35TB/s1TFLOP16TB/sFP64算力26TFLOPS51TFLOPS51TFLOPS68TFLOPS134TFLOPS134TFLOPS0.8TFLOP0.8TFLOP51TFLOPS34TFLOPS67TFLOPS67TFLOPSFP64TensorCoreFP32算力1TFLOP67TFLOPS30TFLOPS40TFLOPS90TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat32

(TF32)67TFLOPSTF32(TensorCore)494.5TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513

TFLOPS1513TOPS16896989.5TFLOPS

494.5TFLOPS1979TFLOPS

989.5TFLOPS1979TFLOPS

989.5TFLOPS3958

TFLOPS

1979TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513TFLOPS1513TOPS494.5TFLOPS989.5TFLOPS989.5TFLOPS1,979TFLOPS1,979TOPS16896494TFLOPS990TFLOPS990TFLOPS1,979TFLOPS1,979TOPS0.9PFLOPS1.8PFLOPS1.8PFLOPS3.5PFLOPS3.5PFLOPS1.12PFLOPS2.25PFLOPS2.25PFLOPS4.5PFLOPS4.5PFLOPS2.5PFLOPS5PFLOPS5PFLOPS10PFLOPS10PFLOPSFP16算力(TensorCore)

989.5TFLOPSBFLOAT16(TensorCore)

989.5TFLOPSFP8(TensorCore)INT8算力(TensorCore)CUDA

核心數(shù)量1979TFLOPS1979TOPS3958TOPS1979

TOPS16896TensorCores核心數(shù)量功耗528528528700瓦300-350瓦8002x350-400W

高達700瓦300-350瓦700瓦1000瓦700W1000W2700W晶管數(shù)量(億)制成(nm)8004nm8004nm4nm4nmNVLink:600GB/sPCIeGen5:NVLink:400GB/sPCIe5.0:128GB/sNVIDIA

NVLink?:·900GB/S·PCleGen5:128GB/sNVLink:

NVLink:900GB/sPCIe

600GB/sPCIeGen5:128GB/s

Gen5:128GB/sNVLink:400GB/sPCIe5.0:128GB/s互聯(lián)速度900GB/sbidirectional

NVLink:1.8TB/sNVLink:1.8TB/sNVLink:2x1.8TB/S128GB/s292.7.3GB200功耗相較H100顯著提升,高功耗電源價值凸顯

英偉達H100最大功耗為10.2KW:

根據(jù)FS社區(qū)數(shù)據(jù),英偉達DGX

H100的電源規(guī)格為最大10.2KW,200-240V3300W,16A,50-60Hz。從下圖示意圖所示,電源個數(shù)為6,我們判斷其核心原因是考慮到電源冗余問題。而DGX

H100

GPU數(shù)量為8個,H100的功耗為700W,因此我們假設(shè)巔峰功耗系數(shù)=10200/(700*8)≈1.82。

從英偉達GB200

NVL72示意圖所示,包含6個電源架:

根據(jù)半導體行業(yè)觀察資料,可以清晰的看到,GB200

NVL72包含6個電源組,其中三個位于機架頂部,三個位于底部,其中上層電源組包含6個電源模塊。根據(jù)已知資料,我們大致可以推算出每個電源模塊的功耗,GB200單個芯片組功耗為2700W,假設(shè)NVL

72電源模塊共36個,單個電源模塊功耗為2700*36*1.82/36≈5000W。(未考慮電源冗余情況)。

高功率電源價值凸顯:根據(jù)京東數(shù)據(jù),浪潮服務(wù)器電源M6

3000W的價格為3899元,M5

550W電源價格為829元。因此,在未考慮電源工藝升級的情況下,我們判斷GB200整體電源模塊相較于H100價值凸顯。英偉達DGXH100

電源示意圖GB200NVL72電源示意圖302.8.1

液冷已經(jīng)從“選配”到“必配”,液冷拐點已經(jīng)到來

AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配:復盤英偉達數(shù)據(jù)中心芯片產(chǎn)品,其中明顯可以看到其芯片算力和芯片的功耗成明顯的正相關(guān)。AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配架構(gòu)型號規(guī)格英偉達Volta架構(gòu)V100英偉達Turing架構(gòu)T4英偉達Ampere架構(gòu)V100sPCIeA100A800PCIePCIeSXM2PCIeSXMPCIeSXMNVIDIAAmpereNVIDIAAmpere芯片架構(gòu)NVIDIAVoltaNVIDIAVoltaNVIDIAVoltaNVIDIATuringNVIDIAAmpere

NVIDIAAmpereNVIDIAAmpere顯存顯存帶寬32GB或16GBHBM2

32GB或16GBHBM232GBHBM21134GB/s8.2TFLOPS16GBGDDR6320GB/S80GBHBM2e1935GB/s80GBHBM2e2039GB/s40GBHBM2

80GBHBM2e1555GB/s

1935GB/s80GBHBM2e2039GB/s900GB/s7TFLOPS900GB/sFP64算力7.8TFLOPS254.4GFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPS9.7TFLOPS

9.7TFLOPS19.5TFLOPS

19.5TFLOPS19.5TFLOPS

19.5TFLOPS9.7TFLOPS19.5TFLOPS19.5TFLOPSFP64TensorCoreFP32算力14TFLOPS15.7TFLOPS125TFLOPS16.4TFLOPS8.1TFLOPS65TFLOPSFP32算力(Tensor)TensorFloat32(TF32)TF32(TensorCore)FP16算力(TensorCore)BFLOAT16(TensorCore)FP8(TensorCore)INT8算力

(TensorCore)CUDA核心數(shù)量156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS312TFLOPS312TFLOPS312TFLOPS-156TFLOPS

156TFLOPS312TFLOPS

312TFLOPS312TFLOPS

312TFLOPS312TFLOPS

312TFLOPS156TFLOPS312TFLOPS312TFLOPS312TFLOPS-112TFLOPS130TFLOPS--624TOPS6912432130TOPS2560320624TOPS624TOPS624TOPS624TOPS51206406912432TensorCores核心數(shù)量功耗250瓦300瓦211250瓦70瓦136300瓦400瓦250瓦300瓦542400瓦晶管數(shù)量(億)制成(nm)5427nm12nm12nm7nmNVLink:600GB/sPCIe4.0:64GB/sNVLink:600GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/sNVLink:400GB/sPCIe4.0:64GB/s互聯(lián)速度32GB/s300GB/s32GB/s32GB/S312.8.2

液冷已經(jīng)從“選配”到“必配”,液冷拐點已經(jīng)到來

AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配:風冷的極限芯片散熱功率是800W,如下圖所示,GH200以及最新款B200、GB200的功耗已經(jīng)超過風冷極限,H200和B100的功耗已經(jīng)接近風冷極限。AI芯片架構(gòu)升級速度明顯加快,高算力與高功耗相匹配架構(gòu)型號英偉達Hopper架構(gòu)H800Blackwell架構(gòu)B200H100PCIeH200SXMGH200B100GB200規(guī)格SXMNVLSXMNVIDIAHopperPCIe芯片架構(gòu)NVIDIAHopper

NVIDIAHopper

NVIDIAHopperNVIDIAHopperNVIDIAHopperNVIDIAHopper+ARMNVDIABlakwellNVDIABlakwellNVDIABlakwell顯存顯存帶寬80GBHBM33.35TB/s34TFLOPS67TFLOPS67TFLOPS80GBHBM2e2TB/s188GBHBM37.8TB/s80GBHBM380GB

HBM32TB/s141GBHBM3e4.8TB/s96GB|144GBHBM3e512GB/s(CPU)34TFLOPS192GB8TB/s192GB8TB/s384GB3.35TB/s1TFLOP16TB/sFP64算力26TFLOPS51TFLOPS51TFLOPS68TFLOPS134TFLOPS134TFLOPS0.8TFLOP0.8TFLOP51TFLOPS34TFLOPS67TFLOPS67TFLOPSFP64TensorCoreFP32算力1TFLOP67TFLOPS30TFLOPS40TFLOPS90TFLOPS67TFLOPS67TFLOPSFP32算力(Tensor)TensorFloat32

(TF32)67TFLOPSTF32(TensorCore)494.5TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513

TFLOPS1513TOPS16896989.5TFLOPS

494.5TFLOPS1979TFLOPS

989.5TFLOPS1979TFLOPS

989.5TFLOPS3958

TFLOPS

1979TFLOPS378TFLOPS756.5TFLOPS756.5TFLOPS1513TFLOPS1513TOPS494.5TFLOPS989.5TFLOPS989.5TFLOPS1,979TFLOPS1,979TOPS16896494TFLOPS990TFLOPS990TFLOPS1,979TFLOPS1,979TOPS0.9PFLOPS1.8PFLOPS1.8PFLOPS3.5PFLOPS3.5PFLOPS1.12PFLOPS2.25PFLOPS2.25PFLOPS4.5PFLOPS4.5PFLOPS2.5PFLOPS5PFLOPS5PFLOPS10PFLOPS10PFLOPSFP16算力(TensorCore)

989.5TFLOPSBFLOAT16(TensorCore)

989.5TFLOPSFP8(TensorCore)INT8算力(TensorCore)CUDA

核心數(shù)量1979TFLOPS1979TOPS3958TOPS1979

TOPS16896TensorCores核心數(shù)量功耗528528528700瓦300-350瓦8002x350-400W

高達700瓦300-350瓦700瓦1000瓦700W1000W2700W晶管數(shù)量(億)制成(nm)8004nm8004nm4nm4nmNVLink:600GB/sPCIeGen5:NVLink:400GB/sPCIe5.0:128GB/sNVIDIA

NVLink?:·900GB/S·PCleGen5:128GB/sNVLink:

NVLink:900GB/sPCIe

600GB/sPCIeGen5:128GB/s

Gen5:128GB/sNVLink:400GB/sPCIe5.0:128GB/s互聯(lián)速度900GB/sbidirectional

NVLink:1.8TB/sNVLink:1.8TB/sNVLink:2x1.8TB/S128GB/s322.8.3

兩相液冷的液冷模組相對昂貴,原因是工藝相對復雜

單相液冷的核心在于冷卻液沒發(fā)生相態(tài)的變化:

制冷過程:CDU的循環(huán)泵推動二次側(cè)的冷卻液從IT設(shè)備的底部進入,在流過豎直放置于浸沒腔中的IT設(shè)備時,移走設(shè)備熱量。隨后,吸收了熱量并升溫的二次側(cè)冷卻液從液冷機柜的頂部離開,流向CDU。在CDU中,通過板式熱交換器,冷卻液將其所攜帶的熱量轉(zhuǎn)移給一次側(cè)的冷卻液。然后,已經(jīng)升溫的一次側(cè)冷卻液經(jīng)過冷卻塔,將熱量釋放至大氣中,完成整個冷卻過程。

兩相液冷的核心在于二次側(cè)冷卻液在熱量傳遞過程中發(fā)生相態(tài)轉(zhuǎn)變:傳熱路徑與前者基本相同,區(qū)別在于,二次側(cè)冷卻液只在浸沒腔體內(nèi)循環(huán),且浸沒腔體內(nèi)部形成了液態(tài)和氣態(tài)兩個區(qū)域:頂部為氣態(tài)區(qū),底部為液態(tài)區(qū)。當冷卻液吸收了設(shè)備產(chǎn)生的熱量后沸騰并轉(zhuǎn)化為高溫氣態(tài)。這些氣態(tài)冷卻液的密度較低,會逐漸上升到浸沒腔體的頂部,在那里與頂部的冷凝器進行熱交換并冷凝成低溫的液態(tài)。這些冷卻液在重力的作用下重新回到腔體底部,從而完成IT設(shè)備的散熱過程。

我們判斷兩相液冷的液冷模組相對昂貴,原因是工藝相對復雜。單相液冷技術(shù)原理示意圖兩相液冷技術(shù)原理示意圖332.9.1

國產(chǎn)芯片之光:海思昇騰AI芯片,構(gòu)建算力的第二極

全棧全場景AI芯片,構(gòu)建智能計算架構(gòu)核心

昇騰

910

和昇騰

310

兩款AI芯片均使用的達芬奇架構(gòu),每個

AI核心可以在

1個周期內(nèi)完成

4096

MAC

計算,集成了張量、矢量、標量等多種運算單元,支持多種混合精度計算,支持訓練及推理兩種場景的數(shù)據(jù)精度運算。

基于昇騰系列AI處理器和基礎(chǔ)軟件構(gòu)建Atlas人工智能計算解決方案,包括Atlas系列模塊、板卡、小站、服務(wù)器、集群等豐富的產(chǎn)品形態(tài),打造面向“端、邊、云”的全場景AI基礎(chǔ)設(shè)施方案,覆蓋深度學習領(lǐng)域推理和訓練全流程,可以滿足不同場景的大模型計算需求。

的全棧全場景AI解決方案日臻完善。主要基于昇騰系列處理器和基礎(chǔ)軟件構(gòu)建的全棧AI計算基礎(chǔ)設(shè)施、行業(yè)應(yīng)用及服務(wù),包括昇騰系列芯片、Atlas系列硬件、芯片使能、CANN(異構(gòu)計算架構(gòu))、AI計算框架、應(yīng)用使能等。

算力是衡量單卡性能的直觀指標:參數(shù)方面,我們認為昇騰910芯片單卡算力已經(jīng)可以與英偉達A100相媲美。英偉達與參數(shù)比對架構(gòu)昇騰全棧AI軟硬件平臺,構(gòu)筑智能世界的基石算力最大功耗達芬奇架構(gòu)3DCube技術(shù)16TOPS@INT88TOPS@FP16昇騰310昇騰9108W達芬奇架構(gòu)3DCube技術(shù)640320310W300W700WTOPS@INT8

TFLOPS@FP16624

312TOPS@INT8

TFLOPS@FP163958

1979TOPS@INT8

TFLOPS@FP16英偉達

NVIDIA安培

GPUA100架構(gòu)英偉達H100NVIDIA

HoppeGPU架構(gòu)342.9.2昇騰芯片,統(tǒng)一達芬奇架構(gòu)助力AI計算引擎

昇騰AI芯片的計算核心主要由AI

Core構(gòu)成:

AI

Core采用了達芬奇架構(gòu),它包括了三種基礎(chǔ)計算資源,矩陣計算單元、向量計算單元和標量計算單元。這三種計算單元分別對應(yīng)了張量、向量和標量三種常見的計算模式,在實際的計算過程中各司其職,形成了三條獨立的執(zhí)行流水線,在系統(tǒng)軟件的統(tǒng)一調(diào)度下互相配合達到優(yōu)化的計算效率,AI

Core中的矩陣計算單元目前可以支持INT8、INT4和FP16的計算;向量計算單元目前可以支持FP16和FP32的計算。我們認為本質(zhì)上講昇騰芯片屬于專為AI而生的特定域架構(gòu)芯片。

存儲轉(zhuǎn)換單元(MTE)是達芬奇架構(gòu)的特色:比如通用GPU要通過矩陣計算來實現(xiàn)卷積,首先要通過Im2Col的方法把輸入的網(wǎng)絡(luò)和特征數(shù)據(jù)重新以一定的格式排列起來,通用GPU通過軟件實現(xiàn),效率較為低下,達芬奇架構(gòu)采用了一個專用的存儲轉(zhuǎn)換單元來完成此過程,可以在較短的時間之內(nèi)完成整個轉(zhuǎn)置過程,定制化電路模塊的設(shè)計可以提升AI

Core的執(zhí)行效率,從而能夠?qū)崿F(xiàn)不間斷的卷積計算?;A(chǔ)計算資源,矩陣計算單元、向量計算單元示意圖昇騰AI芯片架構(gòu)圖352.9.3HCCS互聯(lián)技術(shù),實現(xiàn)卡間高速互聯(lián)

HCCS是自研的高速互聯(lián)接口,實現(xiàn)高效卡間連接。HCCS是自研的高速互聯(lián)接口,片內(nèi)RoCE可用于節(jié)點間直接互聯(lián)。HCCS是HCCL的硬件形態(tài),HCCL提供了深度學習訓練場景中服務(wù)器間高性能集合通信的功能。

每臺設(shè)備具備兩個HCCS環(huán)共8顆處理器(A0~A7)。每個HCCS存在4顆處理器,同一HCCS內(nèi)處理器可做數(shù)據(jù)交換,不同HCCS內(nèi)處理器不能通信。

單個AI處理器提供3條HCCS互連鏈路,提供最大90GB/s帶寬能力。NPU載板由4個AI處理器組成,3條HCCS組成一個4P

Fullmesh互聯(lián),4個AI處理器間互聯(lián)帶寬達到30GB/s,雙向60GB/s。

我們認為AI大算力集群背景下,單張AI芯片無法完成訓練任務(wù),需要聯(lián)合多張AI芯片,數(shù)據(jù)傳輸速率同樣重要,以實現(xiàn)卡間高速互聯(lián),相較于PCIE模式有顯著優(yōu)勢,能有效幫助服務(wù)器集群協(xié)同訓練,從而加速AI的訓練。HCCS互聯(lián)技術(shù)可HCCS互聯(lián)拓撲圖(K0-K3為鯤鵬處理器)昇騰AI集群組網(wǎng)要求362.9.4910C敬請期待,Atlas打開國產(chǎn)算力集群想象空間

910C敬請期待:根據(jù)集成電路IC消息,推出樣機,而到2025年第一季度將實現(xiàn)量產(chǎn)。旗下昇騰910C芯片正處于緊張的測試階段。昇騰910C芯片預計在今年第四季度昇騰910C芯片作為新一代算力核心,其價值量接近前款昇騰910B芯片的1.5倍。在搭載昇騰910C芯片的服務(wù)器中,單臺服務(wù)器的整體價值將得到大幅提升。此外,我們判斷,在國產(chǎn)化大背景下,昇騰910C相關(guān)供應(yīng)鏈有望快速切入國產(chǎn)化,供應(yīng)鏈國產(chǎn)化為大勢所趨。發(fā)布全新架構(gòu)AI集群,支持超萬億參數(shù)大模型訓練:在全聯(lián)接大會2023上,推出全新架構(gòu)的昇騰AI計算集群——Atlas900SuperCluster。新集群采用了全新的星河AI智算交換機CloudEngine

XH16800,借助其高密的800GE端口能力,兩層交換網(wǎng)絡(luò)即可實現(xiàn)2250節(jié)點(等效于1.8萬張卡)超大規(guī)模無收斂集群組網(wǎng)。其優(yōu)勢顯著,新集群同時使用了創(chuàng)新的超節(jié)點架構(gòu),大大提升了大模型訓練能力實現(xiàn)算力的資源統(tǒng)一調(diào)度,采用液冷設(shè)計。Atlas900

SuperCluster示意圖Atlas900

SuperCluster大模型連續(xù)訓練時長372.10

英偉達宣布AI主權(quán),關(guān)注服務(wù)器廠商份額變化

英偉達宣布AI主權(quán),OEM廠商更受歡迎:英偉達宣布AI主權(quán),其供應(yīng)鏈權(quán)力加大,英偉達參與GB200

NVL機柜式設(shè)計,因此產(chǎn)業(yè)邏輯上更利好OEM廠商,而在英偉達Hopper架構(gòu)時期,英偉達的做法在于擴大其服務(wù)器廠商的供應(yīng)環(huán)節(jié),以方便更好的幫助自身售賣其產(chǎn)品,而此次GB200,系統(tǒng)組裝的難度進一步提高,不同于英偉達SXM架構(gòu)和PCIE的架構(gòu),其取消了模組和基板的分開制作環(huán)節(jié),而是采用了

ComputeBoard的板子,因此有相關(guān)制造能力的OEM廠商更受益。

綁定大型CSP廠商的服務(wù)器廠商更有優(yōu)勢:根據(jù)我們的判斷,大型CSP廠商對GB200的采購保佑積極態(tài)度,核心在于數(shù)據(jù)中心的擴建和GB200本身的高性價比,因此與大型CSP廠商的渠道優(yōu)勢顯得尤為重要。此外,英偉達可能開放其GB200的機架設(shè)計,從而把權(quán)限轉(zhuǎn)移給大型CSP廠商,從而導向服務(wù)器廠商,因此,渠道和制造能力缺一不可。

相關(guān)服務(wù)器供應(yīng)鏈份額有望進一步集中:3月14日,鴻海董事長劉揚偉在法說會上提及該公司AI服務(wù)器業(yè)務(wù)表現(xiàn)時表示,今年GPU模組會有超過三位數(shù)的年增幅度、AI服務(wù)器營收增長預計超過40%,AI服務(wù)器產(chǎn)品在整體服務(wù)器營收占比也將達到40%以上。核心原因在于鴻海是唯一可以提供AI數(shù)據(jù)中心全方位解決方案的公司,其掌握了從零部件、模組、整機做到數(shù)據(jù)中心的垂直整合能力。此外,GB200

供不應(yīng)求,預計今年鴻海

AI服務(wù)器市占率有望達到四成。2021年H1全球AI服務(wù)器市場份額(根據(jù))2024年英偉達AI服務(wù)器代工市占率預期浪潮信息戴爾HPE20.20%32.60%聯(lián)想40%13.80%IBM60%新華三思科1%1.20%2.60%3.90%3.90%9.80%Oracle富士通鴻海

其他鴻海股東大會4.80%

6.10%*注:右圖382.11英偉達GB200服務(wù)器份額結(jié)構(gòu)變化,關(guān)注零部件廠商升級趨勢

英偉達GB200服務(wù)器份額結(jié)構(gòu)變化為亮點,新進供應(yīng)商為亮點:我們判斷GB

200

NVL72不同于H100等8卡DGX服務(wù)器,其零部件價值量占比有望提升,其重點在于CPU、銅連接、液冷模組、電源板塊。截至

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論