DeepSeek研究框架-國(guó)海證券_第1頁(yè)
DeepSeek研究框架-國(guó)海證券_第2頁(yè)
DeepSeek研究框架-國(guó)海證券_第3頁(yè)
DeepSeek研究框架-國(guó)海證券_第4頁(yè)
DeepSeek研究框架-國(guó)海證券_第5頁(yè)
已閱讀5頁(yè),還剩98頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年02月14日——計(jì)算機(jī)人工智能系列深度報(bào)告評(píng)級(jí):推薦(維持)劉熹(證券分析師)S0350523040001liux10@相關(guān)報(bào)告《計(jì)算機(jī)行業(yè)點(diǎn)評(píng)報(bào)告:DeepSeek攪動(dòng)了全球AI的“一池春水”(推薦)*計(jì)算機(jī)*劉熹》——2025-02-03《美國(guó)對(duì)華AI限制加劇,自主可控大勢(shì)所趨——AI算力“賣水人”系列(4)(推薦)*計(jì)算機(jī)*劉熹》——2025-01-24《計(jì)算機(jī)行業(yè)事件點(diǎn)評(píng):我國(guó)中部最大智算中心投產(chǎn),國(guó)產(chǎn)算力景氣上行(推薦)*計(jì)算機(jī)*劉熹》——2025-01-14表現(xiàn)計(jì)算機(jī)滬深30030.1%5.0%3.3%-4.1%57.5%16.5%最近一年走勢(shì)56%最近一年走勢(shì)56% 40% 24% 9% -7%-23%請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明2uDeepSeek(深度求索)專注大模型技術(shù),V3和R1模型驚艷海內(nèi)外DeepSeek(深度求索)成立于2023年7月,由量化資管公司幻方量化創(chuàng)立,DeepSeek專注于開(kāi)發(fā)先進(jìn)的大語(yǔ)言模型(LLM)和相關(guān)技術(shù)。2024年1月5日,發(fā)布第一個(gè)大模型DeepSeekLLM;12月26日,上線DeepSeek-V3并同步開(kāi)源,DeepSeek-V3采用FP8訓(xùn)練,性能對(duì)其世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。2025年1月20日,發(fā)布DeepSeek-R1,DeepSeek-R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAIo1正式版。DeepSeek-R1推出后廣受關(guān)注,據(jù)Appfigures、SensorTower報(bào)告,1月26日以來(lái),深度求索(DeepSeek)發(fā)布的DeepSeekAI智能助手爆火,在全球140個(gè)市場(chǎng)的應(yīng)用商店下載榜上排名第一。DeepSeekV3和R1模型基于Transformer架構(gòu),采用了MLA和DeepSeekMoE兩大核心技術(shù),引入了多令牌預(yù)測(cè)、FP8混合精度訓(xùn)練等創(chuàng)新技術(shù),顯著提升了模型的訓(xùn)練效率和推理性能。DeepSeek創(chuàng)始人梁文鋒表示“V2模型沒(méi)有海外回來(lái)的人,都是本土的”。DeepSeek代表系A(chǔ)I會(huì)不斷反應(yīng),全球AI模型迭代和發(fā)布頻率將提速,投入繼續(xù)加大。自1月20日DeepO3mini、DeepResearch等模型,OpenAICEO表示GPT-5將是超級(jí)混合模型,計(jì)劃把GPT和o系列模型整合在一起。2)DeepSeek驅(qū)動(dòng)國(guó)產(chǎn)AI估值重塑。我們認(rèn)為:長(zhǎng)期以來(lái),算力和技術(shù)是制約國(guó)內(nèi)AI估值的境里,通過(guò)本土AI團(tuán)隊(duì),探索出一條“算法創(chuàng)新+有限算力”的新路徑,較大地提振了國(guó)內(nèi)AI產(chǎn)業(yè)信心。DeepSeek-R1的推出或3)DeepSeek是開(kāi)源AI的“ChatGPT時(shí)刻”。OpenAICEO首次承認(rèn)OpenAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。DeepSeek-R1開(kāi)AI平權(quán)將驅(qū)動(dòng)DeepSeek迅速推廣,近期全球CSP大廠密集上架DeepSeek能力也驗(yàn)證了這點(diǎn),我們預(yù)計(jì)KillerAPP的誕生或?qū)⑴R近。請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明3顯著提升,應(yīng)用上游的模型API的價(jià)格下降也將驅(qū)動(dòng)應(yīng)用廠商的商業(yè)模式快速成熟。2)AI端側(cè):DeepSeek支持用戶進(jìn)行“模型蒸餾”,并通過(guò)DeepSeek-R1的輸出,蒸餾了6個(gè)小模型開(kāi)源給社區(qū)。端側(cè)AI能力過(guò)去受限于端側(cè)AI計(jì)算影響,DeepSeek將顯著提升端側(cè)小模型的能力,進(jìn)而提升AI終端能力。3)算力:杰文斯悖論指出當(dāng)我們希望通過(guò)技術(shù)進(jìn)步來(lái)提高資源效率時(shí),可能會(huì)導(dǎo)致資源的消耗增加。我們預(yù)計(jì)DeepSeek帶來(lái)的大DeepSeek探索出一條“算法創(chuàng)新+不具備完全可比性,對(duì)標(biāo)的相關(guān)資料和數(shù)據(jù)僅供參考。請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明42.3、DeepSeekR1Zero核心創(chuàng)新點(diǎn)——RL請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明5DeepSeek是一家于2023年成立的中國(guó)初創(chuàng)企業(yè),創(chuàng)始人是AI驅(qū)動(dòng)量化對(duì)沖基金幻方量化的掌門人梁文鋒。從股權(quán)結(jié)構(gòu)圖顯示,DeepSeek由四名自然人通過(guò)五層控股掌握100%股份(其中梁文鋒間接持股比例83.29%,直接持股1%,累計(jì)84.2945%)。創(chuàng)始人梁文鋒出生于廣東湛江,浙江大學(xué)畢業(yè),擁有信息與電子工程學(xué)系本科和碩士學(xué)位,2008年起開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全年梁文鋒宣布正式進(jìn)軍通用人工智能領(lǐng)域,創(chuàng)辦DeepSeek,專注于做真正人類級(jí)別的人工智能。資料來(lái)源資料來(lái)源:商界觀察請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明7母公司幻方量化確立以AI為發(fā)展方向。2016年,幻方量化第一個(gè)由深度學(xué)習(xí)算法模型生成的股票倉(cāng)位上線實(shí)盤交易,使用GPU進(jìn)行計(jì)算。隨后幻方需要解決算力受限難題。于是幻方在2019年成立了一家AI基礎(chǔ)研究公司,并推出自研的“螢火一號(hào)”AI集群,搭載500塊顯卡。2021年,幻達(dá)芯片大買家之一,2022年其用于科研支持的閑時(shí)算力高達(dá)1533萬(wàn)GPU時(shí),大大超越了后來(lái)很多大模型公司。資料來(lái)源:公司官網(wǎng)資料來(lái)源:公司官網(wǎng),國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明8團(tuán)隊(duì)以年輕化為主,具備深厚技術(shù)底蘊(yùn)。創(chuàng)始人梁文鋒曾在36氪的采訪中,給出了DeepSeek的員工畫像:“都是一些Top高校的應(yīng)屆畢業(yè)生、沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。”自2023年5月誕生以來(lái),DeepSeek始終維持約150人的精英團(tuán)隊(duì),推行無(wú)職級(jí)界限、高度扁平化的文化,以此激發(fā)研究靈感,高效調(diào)配資源。早在2022年,幻方量化便著手為DeepSeek籌建AI團(tuán)隊(duì),至2023年5月DeepSeek正式成立時(shí),團(tuán)隊(duì)已匯聚近百名卓越工程師。如今,即便不計(jì)杭州的基礎(chǔ)設(shè)施團(tuán)隊(duì),北京團(tuán)隊(duì)亦擁有百名工程師。技術(shù)報(bào)告的致謝欄揭示,參與DeepSeekV3研發(fā)的工程師陣容,已壯大至139人。團(tuán)隊(duì)薪酬水平對(duì)標(biāo)字節(jié)跳動(dòng)研發(fā)崗位,且不限制人才的算力使用。據(jù)36氪資料顯示,DeepSeek薪酬水平對(duì)標(biāo)的字節(jié)研發(fā),“根據(jù)人才能拿到的熟練掌握至少兩種編程語(yǔ)言;在國(guó)際頂會(huì)或期刊發(fā)表相關(guān)論文;知優(yōu)秀的藝術(shù)類教育背景;有互聯(lián)網(wǎng)或科技公司UI設(shè)計(jì)有搜索、推薦、廣告等業(yè)務(wù)數(shù)據(jù)的處理經(jīng)驗(yàn);有規(guī)模中文網(wǎng)頁(yè)數(shù)據(jù)具有扎實(shí)的編程功底;有頂級(jí)AI會(huì)議論文發(fā)表經(jīng)驗(yàn)或開(kāi)源項(xiàng)目貢獻(xiàn)資料來(lái)源資料來(lái)源:華爾街見(jiàn)聞,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明9模型類別日期名稱內(nèi)容對(duì)標(biāo)LLM2023年11月2日DeepSeekCoder模型包括1B,7B,33B多種尺寸,開(kāi)源內(nèi)容包含Base模型和指令調(diào)優(yōu)模型。Meta的CodeLlama是業(yè)內(nèi)標(biāo)桿,但DeepSeekCoder展示出多方位領(lǐng)先的架勢(shì)。2024年6月17日DeepSeekCoderV2代碼大模型,提供了236B和16B兩種版本。DeepSeekCoderV2的API服務(wù)也同步上線,價(jià)格依舊是「1元/百萬(wàn)輸入,2元/百萬(wàn)輸出」。能力超越了當(dāng)時(shí)最先進(jìn)的閉源模型GPT-4-Turbo。2023年11月29日DeepSeekLLM67B首款通用大語(yǔ)言模型,且同步開(kāi)源了7B和67B兩種不同規(guī)模的模型,甚至將模型訓(xùn)練過(guò)程中產(chǎn)生的9個(gè)checkpoints也一并公開(kāi),Meta的同級(jí)別模型LLaMA270B,并在近20個(gè)中英文的公開(kāi)評(píng)測(cè)榜單上表現(xiàn)更佳。2024年3月11日DeepSeek-VL多模態(tài)AI技術(shù)上的初步嘗試,尺寸為7B與1.3B,模型和技術(shù)論文同步開(kāi)源。2024年5月DeepSeek-V2通用MoE大模型的開(kāi)源發(fā)布,DeepSeek-V2使用了MLA(多頭潛在注意力機(jī)制將模型的顯存占用率降低至傳統(tǒng)MHA的5%-13%對(duì)標(biāo)GPT-4-Turbo,而API價(jià)格只有后者的1/702024年9月6日DeepSeek-V2.5融合模型Chat模型聚焦通用對(duì)話能力,Code模型聚焦代碼處理能力合二為一,更好的對(duì)齊了人類偏好,2024年12月10日DeepSeek-V2.5-DeepSeekV2系列收官之作,全面提升了包括數(shù)學(xué)、代碼、寫作、角色扮演等在內(nèi)的多方能力。2024年12月26日DeepSeek-V3開(kāi)源發(fā)布,訓(xùn)練成本估算只有550萬(wàn)美金性能上全面對(duì)標(biāo)海外領(lǐng)軍閉源模型,生成速度也大幅提升。2024年2月5日DeepSeekMat數(shù)學(xué)推理模型,僅有7B參數(shù)數(shù)學(xué)推理能力上直逼GPT-42024年8月16日DeepSeek-Prover-數(shù)學(xué)定理證明模型在高中和大學(xué)數(shù)學(xué)定理證明測(cè)試中均超越了多款知名的開(kāi)源模型。推理模型V1.5,2024年11月20日DeepSeek-R1-Lite推理模型,為之后V3的后訓(xùn)練,提供了足量的合成數(shù)據(jù)。媲美o1-preview2025年1月20日DeepSeek-R1發(fā)布并開(kāi)源,開(kāi)放了思維鏈輸出功能,將模型開(kāi)源License統(tǒng)一變更為MIT許可證,并明確用戶協(xié)議允許“模型蒸餾”。在性能上全面對(duì)齊OpenAIo1正式版2023年12月18日DreamCraft3D文生3D模型,可從一句話生成高質(zhì)量的三維模型,實(shí)現(xiàn)了AIGC從2D平面到3D立體空間的跨越。2024年12月13日DeepSeek-VL2多模態(tài)模多模態(tài)大模型,采用了MoE架構(gòu)2024年12月13日DeepSeek-VL2型27B三種尺寸,在各項(xiàng)指標(biāo)上極具優(yōu)勢(shì)。2025年1月27日DeepSeekJanus-Pro開(kāi)源發(fā)布的多模態(tài)模型。架構(gòu)開(kāi)源2024年1月11日DeepSeekMoE開(kāi)源了國(guó)內(nèi)首個(gè)MoE(混合專家架構(gòu))大模型DeepSeekMoE:全新架構(gòu),支持中英,免費(fèi)商用,在2B、16B、145B等多個(gè)尺度上均領(lǐng)先被普遍認(rèn)為是OpenAIGPT-4性能突破的關(guān)鍵所在資料來(lái)源:新浪人工智能資料來(lái)源:新浪人工智能,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明1014.8Ttoken上進(jìn)行了預(yù)訓(xùn)練。V3多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開(kāi)源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。在具體的測(cè)試集上,DeepSeek-V3在知識(shí)類任務(wù)上接近當(dāng)前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022;長(zhǎng)文本/代碼/數(shù)學(xué)/中文能力上均處于世界一流模型位置。圖:圖:DeepSeek-V3對(duì)比領(lǐng)域開(kāi)源/閉源模型資料來(lái)源:資料來(lái)源:DeepSeek官方公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明11DeepSeek-R1性能比較OpenAI-o1。DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升網(wǎng)頁(yè)或者app端打開(kāi)“深度思考”模式,即可調(diào)用最新版DeepSeek-R1完成各類推理任務(wù)。開(kāi)放的許可證和用戶協(xié)議。DeepSeek在發(fā)布并開(kāi)源R1的同時(shí),同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:1)模型開(kāi)源License統(tǒng)一使用圖:圖:DeepSeek-R1性能比肩OpenAIo1正式版圖:DeepSeek-R1發(fā)布即上線資料來(lái)源:資料來(lái)源:DeepSeek官方公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明12DeepSeek系列模型均極具定價(jià)優(yōu)勢(shì)。DeepSeekV3模型定價(jià):隨著性能更強(qiáng)、速度更快的DeepSeek-V3更新上線,模型API服務(wù)定價(jià)也將調(diào)整為每百萬(wàn)輸入tokens0.5元(緩DeepSeek-R1百萬(wàn)tokens輸出價(jià)格約為o1的1/27。DeepSeek-R1API服務(wù)定價(jià)為每百萬(wàn)輸入tokens1元(緩存命中)/4元(緩存未命中每百萬(wàn)輸出tokens16元。對(duì)比OpenAI-o1每百萬(wàn)輸入tokens為55元(緩存命中百萬(wàn)tokens輸出為438元。圖:圖:DeepSeek-R1定價(jià)對(duì)比同為推理模型的o1系列圖:DeepSeek-V3API定價(jià)對(duì)比海內(nèi)外主流模型資料來(lái)源:資料來(lái)源:DeepSeek官方公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明13DeepSeek遠(yuǎn)超同期ChatGPT,AI格局或迎來(lái)重塑。2025年1月15日,DeepSeek官方App正式發(fā)布,并在iOS/Android各大應(yīng)用市場(chǎng)全面上線。數(shù)據(jù)顯示,DeepSeek在上線18天內(nèi)達(dá)到日活躍用戶1500萬(wàn)的成就,相較之下,同期ChatGPT則耗費(fèi)244天才實(shí)現(xiàn)相同日活;2月4日,上線20天后日活突破2000萬(wàn),創(chuàng)下又一個(gè)新紀(jì)錄。DeepSeek在發(fā)布的前18天內(nèi)累計(jì)下載量達(dá)到1600萬(wàn)次,峰值日下載量高達(dá)500萬(wàn)次,幾乎是ChatGPT同期900萬(wàn)次下載量的兩倍。此外,DeepSeek在全球140個(gè)市場(chǎng)中的移動(dòng)應(yīng)用下載量排行榜上位居榜首。資料來(lái)源:公司官網(wǎng)資料來(lái)源:公司官網(wǎng),蘋果APPStore,SensorTower請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明14DeepSeek驚艷海外市場(chǎng),中國(guó)AI產(chǎn)業(yè)首次步入引領(lǐng)位置。英偉達(dá)表示,DeepSeek為推理、數(shù)學(xué)和編碼等任務(wù)提供了“最先進(jìn)的推理能力”“高推理效率”以及“領(lǐng)先的準(zhǔn)確性”。Meta首席AI科學(xué)家YannLecun表示“DeepSeek-R1面世與其說(shuō)意味著中國(guó)公司在AI領(lǐng)域正在超越美國(guó)公司,不如說(shuō)意味著開(kāi)源大模型正在超越閉源。”O(jiān)penAI首席執(zhí)行官SamAltman首次承認(rèn)OpenAI的閉源策略“站在了歷史錯(cuò)誤的一邊”。微軟COE納德拉表示,公司的DeepSeekR1模型展現(xiàn)了"真正的創(chuàng)新力"。國(guó)內(nèi)黑神話制作人悟空馮冀表示,DeepSeek可能是個(gè)國(guó)運(yùn)級(jí)別的科技成果。資料來(lái)源:澎湃新聞資料來(lái)源:澎湃新聞、IT之家請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明151)1月30日,英偉達(dá)宣布DeepSeek-R1可作為NVIDIANIM微服務(wù)預(yù)覽版使用。2)1月,DeepSeek-R1模型被納入微軟平臺(tái)AzureAIFoundry和GitHub的模型目錄,開(kāi)發(fā)者將可以在Copilot+PC上本地運(yùn)行DeepSeek-R1精簡(jiǎn)模型,以及在Windows上的GPU生態(tài)系統(tǒng)中運(yùn)行,此外還宣布將DeepSeek-R1部署在云服務(wù)Azure上。3)AWS(亞馬遜云科技)宣布,用戶可以在AmazonBedrock和AmazonSageMakerAI兩大AI服務(wù)平臺(tái)上部署DeepSeek-R1模型。4)Perplexity宣布接入了DeepSeek模型,將其與OpenAI的GPT-o1和Anthropic的Claude-3.5并列作為高性能選項(xiàng)。5)華為:已上線基于其云服務(wù)的DeepSeek-R1相關(guān)服務(wù);6)騰訊:DeepSeek-R1大模型可一鍵部署至騰訊云‘HAI’上,開(kāi)發(fā)者僅需3分鐘就能接入調(diào)用。7)百度:DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平臺(tái)上架;8)阿里:阿里云PAIModelGallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:微軟宣布接入DeepSeek資料來(lái)源資料來(lái)源:英偉達(dá)、微軟請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明16二、DeepSeek模型家族技術(shù)詳解DeepSeekV3MoE架構(gòu)模型使用低秩聯(lián)合壓縮方法減少注意力計(jì)算的緩存需2、混合專家架構(gòu)(DeepSeekMoE)①細(xì)粒度專家分割③輔助損失優(yōu)化的專家負(fù)載平衡策略。3、多Token預(yù)測(cè)目標(biāo)(MTP)提高訓(xùn)練數(shù)據(jù)效率。4、DualPipe算法。5、支持FP8混合精度訓(xùn)練。DeepSeekR1Zero1、強(qiáng)化學(xué)習(xí)算法:使用GRPO框架,通過(guò)群體獎(jiǎng)勵(lì)優(yōu)化策略模型。獎(jiǎng)勵(lì)設(shè)計(jì)包括準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。2、自我演化與頓悟時(shí)刻:模型通過(guò)RL自動(dòng)學(xué)習(xí)復(fù)雜的推理行為,如自我驗(yàn)證和反思。隨著訓(xùn)練過(guò)程的深入,模型逐步提升了復(fù)雜任務(wù)的解答能力,并在推理任務(wù)上顯現(xiàn)突破性的性能提升。DeepSeekR11、冷啟動(dòng)數(shù)據(jù)引入:從零開(kāi)始的RL容易導(dǎo)致初期性能不穩(wěn)定,為此設(shè)計(jì)了包含高質(zhì)量推理鏈的冷啟動(dòng)數(shù)據(jù)集。該數(shù)據(jù)提高了模型的可讀性和訓(xùn)練初期的穩(wěn)定性。進(jìn)一步優(yōu)化模型在數(shù)學(xué)、編程等推理密集型任務(wù)中的表現(xiàn)。3、監(jiān)督微調(diào)與拒絕采樣:使用RL檢查點(diǎn)生成額外的推理和非推理任務(wù)數(shù)據(jù),進(jìn)一步微調(diào)模型。4、全場(chǎng)景強(qiáng)化學(xué)習(xí):在最終階段結(jié)合多種獎(jiǎng)勵(lì)信號(hào),提升模型的有用性和安全性。請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明18請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明18MLA從傳統(tǒng)的MHA(多頭注意力機(jī)制)出發(fā),MHA通過(guò)并行運(yùn)行多個(gè)Self-Attention層并綜合其結(jié)果,能夠同時(shí)捕捉輸入序列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。通過(guò)將輸入的查詢、鍵和值矩陣分割成多個(gè)頭,并在每個(gè)頭中獨(dú)立計(jì)算注意力,再將這些頭的輸出拼接線性變換,從而實(shí)現(xiàn)在不同表示子著降低計(jì)算及內(nèi)存占用問(wèn)題。MLA的核心思想則是使用低秩分解(LoRA)來(lái)近似Key和Value的投影,以在推理期間減少鍵值緩存(KVcache顯著降低計(jì)算和內(nèi)存占用的復(fù)雜度。資料來(lái)源:《資料來(lái)源:《DeepSeek-V3TechnicalReport》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明19算設(shè)備上,同樣會(huì)造成計(jì)算資源浪費(fèi)以及模型能力局限;負(fù)載均衡則類似一個(gè)公平的“裁判”,鼓勵(lì)專家的選擇趨于均衡,避免出現(xiàn)上述請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明20請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明20MTP顯著提升模型性能。模型不再局限于預(yù)測(cè)序列中的下一個(gè)token,而是學(xué)會(huì)同時(shí)預(yù)測(cè)多個(gè)連續(xù)位置的token。這種并行預(yù)測(cè)機(jī)制不僅提高了訓(xùn)練效率,還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時(shí),模型整體性能提升2-3%。種并行生成機(jī)制使推理速度提升了1.8倍,還顯著降低了計(jì)算開(kāi)銷。資料來(lái)源:《資料來(lái)源:《DeepSeek-V3TechnicalReport》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明21DeepSeekV3采用了FP8混合精度訓(xùn)練框架。在訓(xùn)練過(guò)程中,大部分核心計(jì)算內(nèi)核均采用FP8精度實(shí)現(xiàn)。例如,在前向傳播、激活反向傳播和權(quán)重反向傳播中,輸入數(shù)據(jù)均使用FP8格式,而輸出結(jié)果則使用BF16或FP32格式。這種設(shè)計(jì)使得計(jì)算速度相較于原始BF16方法提升一倍。DeepSeek能夠在有限的計(jì)算資源下,實(shí)現(xiàn)更高的計(jì)算效率。例如,在處理大規(guī)模數(shù)據(jù)集時(shí),F(xiàn)P8格式資料來(lái)源:《資料來(lái)源:《DeepSeek-V3TechnicalReport》,NVIDIA英偉達(dá)企業(yè)解決方案公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明22DeepSeek-V3采用了一種名為DualPipe的創(chuàng)新流水線并行策略。與傳統(tǒng)的單向流水線(如1F1B)不同,DualPipe采用雙向流水線設(shè)計(jì),即同時(shí)從流水線的兩端饋送micro-batch。這種設(shè)計(jì)可以顯著減高GPU利用率。DualPipe還將每個(gè)micro-batch進(jìn)一步劃分為更小的chunk,并對(duì)每個(gè)chunk的計(jì)算和通信進(jìn)行精細(xì)的調(diào)度。隨后將一個(gè)chunk劃分為attention、all-to-all使得計(jì)算和通信可以高度重疊。DualPipe在流水線氣泡數(shù)量和激活內(nèi)存開(kāi)銷方面均優(yōu)于1F1B和8個(gè)PPrank和的DualPipe調(diào)度資料來(lái)源:《資料來(lái)源:《DeepSeek-V3TechnicalReport》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明23英偉達(dá)PTX(并行線程執(zhí)行)是專門為其GPU設(shè)計(jì)的中間指令集架構(gòu),位于高級(jí)GPU編程語(yǔ)言(如CUDAC/C++或其他語(yǔ)言前端)和低級(jí)機(jī)器代碼(流處理匯編或SASS)之間。PTX是一種接近底層的指令集架構(gòu),將GPU呈現(xiàn)為數(shù)據(jù)并行計(jì)算設(shè)備,因此能夠?qū)崿F(xiàn)寄存器分配、線程/線程束級(jí)別調(diào)整等細(xì)粒度優(yōu)化,這些是CUDAC/C++等語(yǔ)言無(wú)法實(shí)現(xiàn)的。DeepSeekV3采用定制的PTX(并行線程執(zhí)行)指令并自動(dòng)調(diào)整通信塊大小,這大大減少了L2緩存的使用和對(duì)其他SM的干擾。PTX允許對(duì)GPU硬件進(jìn)行細(xì)粒度控制,這在特定場(chǎng)景下可以帶來(lái)更好的性能。圖圖:英偉達(dá)PTX是專門為其GPU設(shè)計(jì)的中間指令集架構(gòu)資料來(lái)源:新智元資料來(lái)源:新智元,量子位公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明24DeepSeek探索LLM在沒(méi)有任何監(jiān)督數(shù)據(jù)的情況下發(fā)力推理能力的潛力,通過(guò)純RL(強(qiáng)化學(xué)習(xí))的過(guò)程實(shí)現(xiàn)自我進(jìn)化。具體來(lái)說(shuō),DS使用DeepSeek-V3-Base作為基礎(chǔ)模型,并使用GRPO(群體相對(duì)策略優(yōu)化)作為RL框架來(lái)提高模型在推理中的性能。在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero自然而然地出現(xiàn)了許多強(qiáng)大而有趣的推理行為。經(jīng)過(guò)數(shù)千次RL步驟后,DeepSeek-R1-Zero在推理基準(zhǔn)測(cè)試中表現(xiàn)出卓越的性能。例如,AIME2024的pass@1分?jǐn)?shù)從15.6%增加到71.0%,在多數(shù)投票的情況下,分?jǐn)?shù)進(jìn)一步提高到86.7%,與OpenAI-o1-0912的性能相當(dāng)資料來(lái)源:《資料來(lái)源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明25GRPO相對(duì)PPO節(jié)省了與策略模型規(guī)模相當(dāng)?shù)膬r(jià)值模型,大幅縮減模型訓(xùn)練成本。傳統(tǒng)強(qiáng)化學(xué)習(xí)更多使用PPO(近端策略優(yōu)化),PPO中有3個(gè)模型,分別是參考模型(referencemodel)、獎(jiǎng)勵(lì)模型(rewardmodel)、價(jià)圖:圖:GRPO核心方法詳解圖:GRPO相對(duì)傳統(tǒng)PPO強(qiáng)化學(xué)習(xí)方式對(duì)比資料來(lái)源:資料來(lái)源:AWS、《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明26模型訓(xùn)練過(guò)程中會(huì)迎來(lái)頓悟時(shí)刻。引用DeepSeek相關(guān)論文中的表述,GRPO強(qiáng)化學(xué)習(xí)框架下,不是人類教模型如何解決問(wèn)題,而僅僅為其提供為問(wèn)題分配更多思考時(shí)間。這些頓悟時(shí)刻是模型思維能力躍升的關(guān)鍵。據(jù)DeepSeek的研究,模型的進(jìn)步并非均勻漸進(jìn)的。在強(qiáng)化學(xué)習(xí)過(guò)程中,響應(yīng)長(zhǎng)度會(huì)出現(xiàn)突然的顯著圖:GRPO相對(duì)傳統(tǒng)PPO強(qiáng)化學(xué)習(xí)方式對(duì)比u例如模型在解決這個(gè)√a-√(a+x)=x的問(wèn)題時(shí),模型突然停下來(lái)說(shuō)"Wait,wait.Wait.That'sanahamomentIcanflaghere"(等等、等等、這是個(gè)值得標(biāo)記的啊哈時(shí)刻),隨后重新審視了整個(gè)解題過(guò)程。這種類似人類頓悟的行為完資料來(lái)源:《資料來(lái)源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明27純強(qiáng)化學(xué)習(xí)后出來(lái)的DeepSeekR1zero存在可讀性差以及語(yǔ)言混亂等問(wèn)題,主要因其全通過(guò)獎(jiǎng)懲信號(hào)來(lái)優(yōu)化其行為,沒(méi)有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考,因此DeepSeek團(tuán)隊(duì)使用冷啟動(dòng)+多階段訓(xùn)練推出DeepSeekR1模型。具體訓(xùn)練步驟:1)高質(zhì)量冷啟動(dòng)數(shù)據(jù):與DeepSeekR1zero同理,以DeepSeekv3base作為強(qiáng)化學(xué)選擇可讀性更強(qiáng)的cot(長(zhǎng)思維鏈)數(shù)據(jù)作為冷啟動(dòng)數(shù)據(jù),包括以可讀格式收集DeepSeek-R1Zero輸出,并通過(guò)人工注釋者進(jìn)行后處理來(lái)提煉結(jié)果。2)面向推理的強(qiáng)化學(xué)習(xí),這與DeepSeekR1zero的強(qiáng)化學(xué)習(xí)過(guò)程相同,但是在RL期間引入語(yǔ)言一致性獎(jiǎng)勵(lì),雖然語(yǔ)言對(duì)齊可能會(huì)造成一定的性能損失,但是提高了可讀性。3)抑制采樣和監(jiān)督微調(diào),拒絕采用指模型訓(xùn)練過(guò)程中生成的一些不符合特定標(biāo)準(zhǔn)或質(zhì)量要求的樣本數(shù)據(jù)進(jìn)行舍棄,同時(shí)選取了v3的SFT數(shù)據(jù)集一部分作為微調(diào)數(shù)據(jù)。4)全場(chǎng)景強(qiáng)化學(xué)習(xí),屬于一個(gè)二級(jí)強(qiáng)化學(xué)習(xí)階段,目的是圖:DeepSeekR1模型訓(xùn)練過(guò)程圖:DeepSeekR1模型訓(xùn)練過(guò)程圖:DeepSeekR1與其他模型的性能對(duì)比資料來(lái)源:《資料來(lái)源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》、澎湃新聞?wù)垊?wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明28開(kāi)源即代碼層面開(kāi)源,可以調(diào)用與進(jìn)行二次開(kāi)發(fā)。開(kāi)源免費(fèi)調(diào)用有助于先行占據(jù)市場(chǎng)份額,成為規(guī)則制定者,率先拓展生態(tài)粘性。如,谷歌將安DeepSeekV3與R1模型實(shí)現(xiàn)了開(kāi)源,采用MI對(duì)大模型發(fā)展:這提升了世界對(duì)中國(guó)AI大模型能力的認(rèn)知,一定程度打破了OpenAI與Anthropic等高級(jí)閉源模型的封閉生態(tài)。DeepSeekR1在多個(gè)測(cè)試指標(biāo)中對(duì)標(biāo)OpenAIo1,通資料來(lái)源:資料來(lái)源:DeepSeek官網(wǎng),51TCO,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明29核心觀點(diǎn):DeepSeek在推動(dòng)降本、強(qiáng)推理三大層面驅(qū)動(dòng)下,有望加速AI應(yīng)用普及度迎來(lái)跨越式提升。OpenAI上線性價(jià)比模型o3-mini,加速低成本推理模型邊界。2025年2月1日,OpenA的水平;o3-mini(medium)能力媲美滿血版o1;o3測(cè)試結(jié)果,DeepSeekR1處于OpenAIo3DeepSeek價(jià)格優(yōu)勢(shì)仍大幅領(lǐng)先于OpenAI系列推理模型。DeepSeek定價(jià)為百萬(wàn)tokens輸入0.014美元(緩存命中,未命中則0.55美元百萬(wàn)tokens輸出價(jià)格2.19美元;o3-mini百萬(wàn)tokens輸入價(jià)格0.55美元(緩存命中,未命中則1.1美元百萬(wàn)tokens輸出價(jià)格為4.4美元。 4.42.190.550.557.50.01460資料來(lái)源:資料來(lái)源:DeepSeek官方公眾號(hào),OpenAI官網(wǎng),國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明31我們認(rèn)為DeekSeek或推動(dòng)AI投資回報(bào)率加速提升,AI應(yīng)用商業(yè)模式加速跑通。據(jù)中國(guó)工業(yè)互聯(lián)網(wǎng)研究院數(shù)據(jù),2024年以字節(jié)火山引擎、阿里云、百度云為代表的云廠商掀起了大模型價(jià)格戰(zhàn),降價(jià)幅度普遍達(dá)到90%以上。海外以O(shè)penAI為例,5月發(fā)布GPT-4o,模型性能升級(jí)且價(jià)格較GPT-4-Turbo下降50%;8月上線GPT-4o新版本,更強(qiáng)更便宜,但輸出價(jià)格節(jié)省33%。國(guó)內(nèi)以阿里為例,12月31日阿里云宣布2024年度第三輪大模型降價(jià),通義千問(wèn)視覺(jué)理解模型全線降價(jià)超80%。全球及中國(guó)AI應(yīng)用市場(chǎng)規(guī)模加速提升。據(jù)IDC數(shù)據(jù),全球生成式AI市場(chǎng)規(guī)模在2024年達(dá)到360.6美元,同比+76%,預(yù)計(jì)在2028年達(dá)到2154億美元;中國(guó)AI軟件市場(chǎng)規(guī)模在2024年達(dá)到5.7億美元,預(yù)計(jì)2028年達(dá)到35.4億美元。 76%74% 76%74%2154200065627.2204.8204.8202320242025E202666%35.466%35.4353049%50%2522.358%5.758%5.720242025E2026E20資料來(lái)源:資料來(lái)源:IDC、艾瑞咨詢、中國(guó)工業(yè)互聯(lián)網(wǎng)研究院、國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明32R1-Zero展現(xiàn)出強(qiáng)大的通用推理能力。它不僅在數(shù)學(xué)競(jìng)賽中取得驚人成績(jī),更重要的是,R1-Zero不僅是在模仿思考,而是真正發(fā)展出了某種形式的推理能力。DeepSeek最終目標(biāo):AGI。傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)于讓AI模仿人類的思維方式。通過(guò)純粹的強(qiáng)化學(xué)習(xí),AI系統(tǒng)似乎能夠發(fā)展出更原生的問(wèn)題解決能力,而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個(gè)"缺陷"本身可能恰恰印證了其思人類的認(rèn)知方式。資料來(lái)源:資料來(lái)源:infoQ,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明33蒸餾法具有強(qiáng)大的潛力,端側(cè)小模型迎來(lái)發(fā)展契機(jī)。如下表所示,只需提取DeepSeek-R1的輸出即可使高效的DeepSeekR1-7B全面優(yōu)于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有評(píng)估指標(biāo)上都超過(guò)了QwQ-32BPreview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測(cè)試中明顯超過(guò)了o1-mini。此外,我們發(fā)現(xiàn)將RL應(yīng)用于這些蒸餾模型會(huì)產(chǎn)生顯著的進(jìn)一步收益。我們認(rèn)為這值得進(jìn)一步探索,因此在這里只提供簡(jiǎn)單的SFT蒸餾模型的結(jié)果。DeepSeek產(chǎn)品協(xié)議明確可“模型蒸餾”。DeepSeek決定支持用戶進(jìn)行“模型蒸餾”,已更新線上產(chǎn)圖:DeepSeekR1蒸餾小模型性能對(duì)比AIME2024pass@1AIME2024cons500pass@1pass@1hpass@1g資料來(lái)源:DeepSeek公司公眾號(hào),國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明34全球端側(cè)AI市場(chǎng)規(guī)模預(yù)計(jì)從2022年的152億美元增長(zhǎng)到2032年的1436億美元。這一近十倍的增長(zhǎng)不僅反映了市場(chǎng)對(duì)邊緣AI解決方案的迫切需在資源受限的設(shè)備上部署性能強(qiáng)大的模型,必須面對(duì)內(nèi)存與計(jì)算能力的雙重挑戰(zhàn),自2023年起,隨著參數(shù)量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌現(xiàn),LLMs在邊緣設(shè)備上運(yùn)行的可行性逐步明朗。資料來(lái)源:《On-DeviceLanguageModels:AComprehensiveReview》JiajunXu、公司官網(wǎng)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明35●DeepSeekV3模型訓(xùn)練成本達(dá)278.8萬(wàn)H800小時(shí),共花費(fèi)557.6萬(wàn)美元。對(duì)比OpenAI、Anthropic、LlaMA3等模型,DeepSeekV3單次訓(xùn)練成本顯著降低,主要系DeepSeek公司通過(guò)優(yōu)化模型結(jié)構(gòu)、模型訓(xùn)練方法、針對(duì)性GPU優(yōu)化等部分,提升了模型訓(xùn)練過(guò)程中的算力使用效率。表:DeepSeekV3訓(xùn)練成本(假設(shè)H800租賃價(jià)格為2美元/每GPU小時(shí))模型訓(xùn)練方法Pre-Train針對(duì)性GPU優(yōu)化模型訓(xùn)練方法Pre-Train針對(duì)性GPU優(yōu)化低精度FP8訓(xùn)練低精度FP8訓(xùn)練PTX語(yǔ)言用于負(fù)載均衡的輔助無(wú)損策略PTX語(yǔ)言用于負(fù)載均衡的輔助無(wú)損策略無(wú)張量并行TP無(wú)張量并行TP請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明37資料來(lái)源:DeepSeek論文,國(guó)海證券研究所(注:表格為DeepSeekV3官方訓(xùn)練費(fèi)用,不包含此前對(duì)架請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明37●據(jù)Semianalysis,DeepSeek大致?lián)碛?0000張H800GPU芯片、10000張H100GPU芯片以及大量H20GPU芯片,用于模型訓(xùn)練/本就高達(dá)7.15億美元。訓(xùn)練Claude3.5Sonnet的成本就高達(dá)數(shù)千萬(wàn)美元。表:DeepSeekAITCO(總擁有成本)A100#4444#$$$m$m資料來(lái)源資料來(lái)源:Semianalysis,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明38所需的計(jì)算量減少到四分之一;AnthropicCEODario甚至認(rèn)為,這一進(jìn)步速度可能達(dá)到10倍。過(guò)效率提升帶來(lái)的節(jié)約,最終導(dǎo)致資源總消耗增加。明算力需求量短期仍呈提升趨勢(shì),中長(zhǎng)期推理算力需求有望持續(xù)增長(zhǎng)。資料來(lái)源資料來(lái)源:Semianalysis請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明39GPU的使用(H20內(nèi)存與帶寬容量高于H100,推理效率更具優(yōu)勢(shì))。用于推理的人工智能芯片市占率為61%。據(jù)IDC,預(yù)期2023-2027年,推理AI服務(wù)器工作負(fù)載占比從41%提升至73%左右。或產(chǎn)品,那么計(jì)算資源的價(jià)值就有可能提升,這意味著更多的Capex流向硬件領(lǐng)域,軟件也有望受益。AIME資料來(lái)源資料來(lái)源:Semianalysis,IDC,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明40算力單卡實(shí)力較強(qiáng)、互聯(lián)能力不足的情況匹配,并適配昇騰、海光等國(guó)產(chǎn)芯片,國(guó)產(chǎn)化推理算力需求有望持續(xù)增長(zhǎng)。圖:2024H1,中國(guó)人工智能芯片市場(chǎng)份額圖:DeepSeekR1&V3推理服務(wù)適配昇騰云資料來(lái)源:資料來(lái)源:IDC,Semianalysis,華為云公眾號(hào),光合組織公眾號(hào)請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明41限之后,由于數(shù)質(zhì)化轉(zhuǎn)型大趨勢(shì)對(duì)于算力的持續(xù)需求,中國(guó)本土品牌加速卡持續(xù)優(yōu)化硬件能力,市場(chǎng)份額存在一定程度的增長(zhǎng)。02302230264138%95%91%81%81%59%437l42%437資料來(lái)源:各公司官網(wǎng)資料來(lái)源:各公司官網(wǎng),海光信息招股書,壁仞科技公眾號(hào),鎂客網(wǎng),中商情報(bào)網(wǎng)、國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明42(如CUDA、OpenCL等)、驅(qū)動(dòng)程序,最后才是底程接口,而PTX則隱藏在驅(qū)動(dòng)背后?!馜eepSeek-V3模型在多節(jié)點(diǎn)通信時(shí)繞過(guò)了CUDA直接使用PTX(ParallelThreadExecution有望實(shí)現(xiàn)以算法的方式來(lái)高效利用硬件層面的加速。PTX與底層硬件直接交互,編寫和調(diào)用PTX代碼能更精確地控制底層硬件,實(shí)現(xiàn)更高效的計(jì)算。海光持續(xù)拓展軟件棧DTK(DCUToolKit)、寒武紀(jì)自建軟件生態(tài)、華為昇騰發(fā)展AI框架CANN8.0版。圖:NVGPUCUDA結(jié)構(gòu)圖圖:昇騰全棧AI圖:NVGPUCUDA結(jié)構(gòu)圖請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明43請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明432024Q4(FY2025Q2含融資租賃資本支出226億美元,同比增長(zhǎng)96.5%,環(huán)比增長(zhǎng)13%,同比和環(huán)比增速均擴(kuò)大,其中購(gòu)買PP&E現(xiàn)金支出為158億美元(高于一致預(yù)期1.2%)。與AI和云相關(guān)的支出中,超過(guò)一半用于15年折舊的長(zhǎng)期基礎(chǔ)設(shè)施資產(chǎn),服務(wù)器CPU和GPU的占比有所下降。預(yù)計(jì)第三季度和第四季度的季度支出將與第二季度的支出保持相似水平。2024Q3公司資本開(kāi)支達(dá)到131億美元。公司預(yù)計(jì)全年每季度資本支出將大致維持第一季度120億美元或略高。2024Q4公司資本支出(包括融資租賃本金支付)為148億美元,主要用于服務(wù)器、數(shù)據(jù)中心和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的投資。公司預(yù)計(jì)2025年的資本支出將在600-650億美元之間,服務(wù)器仍將是最大的支出增長(zhǎng)驅(qū)動(dòng)力,非人工智能計(jì)算能力需求也會(huì)增長(zhǎng)。2024Q3資本開(kāi)支為213億美元。公司預(yù)計(jì)下半年的資本投資將更高,大部分支出將用于支持對(duì)AWS基礎(chǔ)設(shè)施日益增長(zhǎng)的需求250(億美元)20002022Q12022Q22022Q32022Q42023Q12023Q22023Q32023Q42024Q12024Q22024Q32024Q42022Q12022Q22022Q32022Q42023Q12023Q22023Q32023Q42024Q12024Q22024Q32024Q4圖:2023-2024年全球CSP對(duì)高階AI服務(wù)器需求占比.Microsoft.Microsoft資料來(lái)源:資料來(lái)源:Wind,MicrosoftStart,澎湃新聞,搜狐,財(cái)聯(lián)社,財(cái)經(jīng)涂鴉官網(wǎng),Trendforce,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明44●ASIC芯片在性能、能效以及成本上優(yōu)于標(biāo)準(zhǔn)GPU等芯片,更加契合AI推理場(chǎng)景的需求?!馛SP資本開(kāi)支持續(xù)投向AI服務(wù)器采購(gòu)。據(jù)TrendForce預(yù)估,2024年北美CSPs業(yè)者(如AWS、Meta等)持續(xù)擴(kuò)大自研ASIC,以及中國(guó)的阿里巴巴、百度、華為等積極擴(kuò)大自主ASIC方案,促ASIC服務(wù)器占整體AI服務(wù)器的比重在2024年將升至26%,而主流搭載GPU的AI服務(wù)器占比則約71%。表1:2024年搭載ASIC芯片AI服務(wù)器出貨占比將逾2.5成2024E67.6%65.5%63.6%5.7%7.3%8.1%3.1%3.0%2.9%23.6%24.1%25.3%100%100%100%資料來(lái)源:資料來(lái)源:Trendforce,國(guó)海證券研究所請(qǐng)務(wù)必閱讀報(bào)告附注中的風(fēng)險(xiǎn)提示和免責(zé)聲明45價(jià)值量占比提升。整機(jī)柜:機(jī)柜采用MGX架構(gòu),由計(jì)算托盤與交換托盤組成,提升組裝復(fù)雜度,帶來(lái)ODM整機(jī)廠的加工價(jià)值量提升。HBM:H100采用5顆HBM3,BlackwellUltra預(yù)期采用8顆HBM3e,單顆GPU采用HBM數(shù)量與單價(jià)均實(shí)現(xiàn)提升。NVLink銅纜鏈接。風(fēng)冷上線,有望推動(dòng)液冷組件價(jià)值量提升。GB200H100每GPU每GPU每GPU每GPUBOM資料來(lái)源資料來(lái)源:Semianalysis,國(guó)海證券研究所

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論