【中信建投】DeepSeek核心十問十答_第1頁
【中信建投】DeepSeek核心十問十答_第2頁
【中信建投】DeepSeek核心十問十答_第3頁
【中信建投】DeepSeek核心十問十答_第4頁
【中信建投】DeepSeek核心十問十答_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本報(bào)告亦可能由中信建投(國(guó)際)證券有限計(jì)算機(jī)維持強(qiáng)于大市計(jì)算機(jī)維持強(qiáng)于大市證券研究報(bào)告·行業(yè)動(dòng)態(tài)核心觀點(diǎn)DeepSeek-R1模型發(fā)布,具有高性能、低算力需求的特性,帶動(dòng)小模型推理能力的提升,引發(fā)全球開發(fā)者及用戶關(guān)注。R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán),同時(shí)純強(qiáng)化學(xué)習(xí)對(duì)推理能力的提升帶來RL范式泛化可能,預(yù)計(jì)后續(xù)基模的持續(xù)迭代,有望推動(dòng)AI全產(chǎn)業(yè)鏈持續(xù)保持高景氣和高關(guān)注度,關(guān)注算力、應(yīng)用、端側(cè)、數(shù)據(jù)等核心投資機(jī)會(huì)。行業(yè)動(dòng)態(tài)信息市場(chǎng)表現(xiàn)-3%2024/2/52024/3/52024/4/52024/5/52024/8/52024/9/5近期DeepSeek多款模型上線并完全開源,其中R1在推理任務(wù)上基本實(shí)現(xiàn)于o1相當(dāng)?shù)男阅?,Janus2024/2/52024/3/52024/4/52024/5/52024/8/52024/9/5相關(guān)研究報(bào)告技術(shù)不斷革新,大模型ScalingLaw仍有效相關(guān)研究報(bào)告深度解析及算力影響幾何期:計(jì)算機(jī)板塊連續(xù)四季度低配,Agent加速落地環(huán)節(jié)之一個(gè)4D世界模型,OpenAI深度解析及算力影響幾何期:計(jì)算機(jī)板塊連續(xù)四季度低配,Agent加速落地環(huán)節(jié)之一個(gè)4D世界模型,OpenAI重點(diǎn)布局機(jī)器人期:AI應(yīng)用加速進(jìn)行時(shí)25.02.0325.01.2625.01.20DeepSeek-R1促進(jìn)AI平權(quán),產(chǎn)業(yè)鏈享受發(fā)展紅利25.01.2025.01.19R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán)。同時(shí),R1使小模型具備推理能力成為可能,更低的成本將更有利于開發(fā)者探索AI的實(shí)際落地。25.01.2025.01.19投資建議:1)算力:算力建議關(guān)注以國(guó)產(chǎn)算力和AI推理需求為核心的算力環(huán)節(jié),尤其是IDC、服務(wù)器、國(guó)產(chǎn)芯片等算力配套產(chǎn)業(yè),推薦海光信息、浪潮信息、軟通動(dòng)力,并關(guān)注AIDC相關(guān)標(biāo)的,如并行科技、寶信軟件等;2)應(yīng)用:B端推薦金蝶國(guó)際、鼎捷數(shù)智、賽意信息、用友網(wǎng)絡(luò)、恒生電子、中控技術(shù)等;C端推薦金山辦公、萬興科技、彩訊股份、同花順等;3)端側(cè):教育推薦視源股份、科大訊飛等;其次新終端推薦虹軟科技、聯(lián)想集團(tuán)等;4)數(shù)據(jù):建議關(guān)注向量數(shù)據(jù)庫、數(shù)據(jù)處理類企業(yè),以及具備行業(yè)側(cè)專業(yè)數(shù)據(jù)的廠商,關(guān)注拓爾思等。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告一、DeepSeek模型密集更新,高性能+低成本促進(jìn)用戶數(shù)高增 11.1第一問:DeepSeek的用戶量趨勢(shì)? 11.2第二問:R1和Janus-pro模型的性能如何? 21.3第三問:如何看待DeepSeek-V3模型的訓(xùn)練成本? 5二、技術(shù)不斷革新,大模型ScalingLaw仍有效 72.1第四問:DeepSeek-V3/R1技術(shù)革新有哪些? 72.2第五問:Janus系列模型技術(shù)革新有哪些? 2.3第六問:DeepSeek數(shù)據(jù)集的特點(diǎn)是什么? 2.3第七問:ScalingLaw到底是否有效? 三、DeepSeek-R1促進(jìn)AI平權(quán),產(chǎn)業(yè)鏈享受發(fā)展紅利 3.1第八問:R1是否意味著AI平權(quán)已經(jīng)實(shí)現(xiàn)? 3.2第九問:DeepSeek出圈對(duì)產(chǎn)業(yè)的影響有幾何? 四、投資建議 224.1第十問:DeepSeek將帶來哪些投資機(jī)會(huì)? 22風(fēng)險(xiǎn)分析 23計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告一、DeepSeek模型密集更新,高性能+低成本促進(jìn)用戶數(shù)高增DeepSeek堅(jiān)定開源路線,密集更新MoE、推理、多模態(tài)模型。近期,DeepSeek連續(xù)發(fā)布并開源多個(gè)大模型,其低成本、高性能的特性迅速引發(fā)全球用戶的關(guān)注。其中,2024年12月26日發(fā)布的DeepSeek-V3為671B參數(shù)的自研MoE模型,運(yùn)行時(shí)僅需激活37B,在14.8Ttoken的數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練;2025年1月20日發(fā)布的DeepSeek-R1為660B的高性能推理模型,對(duì)用戶開放思維鏈輸出,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型;2025年1月27日,DeepSeek在HuggingFace平臺(tái)上傳了視覺模型Janus-Pro和多模態(tài)理解模型JanusFlow-1.3B,進(jìn)一步在圖像領(lǐng)域發(fā)力。模型名稱模型類型簡(jiǎn)介標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力;對(duì)用戶開放輸出,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其模態(tài)理解和生成,可適配視覺問答、圖像標(biāo)注等DeepSeekWeb端與APP端訪問量持續(xù)增長(zhǎng),春節(jié)信息傳播下沉加速產(chǎn)品關(guān)注度裂變。Web端,2024年10月至2024年12月DeepSeek訪問量分別為245/422/1101萬,其中11月和12月分別同比增長(zhǎng)72.24%/160.90%,12月受全新開源模型V3促進(jìn)訪問量大幅增長(zhǎng);APP端,DeepSeek2025年1月10日(官方公眾號(hào)1月15日正式發(fā)文)在iOS/Android上線官方APP,而后受益于1月20日發(fā)布R1模型的高性能、低成本,疊加春節(jié)期間信息傳播下沉,產(chǎn)品關(guān)注度呈裂變式增長(zhǎng)。具體而言,DeepSeekAPP安卓/iOS端國(guó)區(qū)單日下載量均于1月261計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告日前后迎來陡增,至1月29日單日下載量分別達(dá)到784.15/29.92萬;同時(shí),DeepSeek安卓端在華為應(yīng)用商店下載排行中位列第四,iOS端則霸榜全球173個(gè)地區(qū)中160/162/171個(gè)總榜(免費(fèi))/應(yīng)用(免費(fèi))/效率(免費(fèi))第一;此外,從產(chǎn)品發(fā)布日起日活用戶看,DeepSeek第5天超過Cha的2倍,亦為全球增速最快的AI原生應(yīng)用,第18天達(dá)到1500萬日活,而ChatGPT上線第244天才達(dá)到1500萬DAU。50Oct-24Nov-24我們認(rèn)為,DeepSeek用戶數(shù)將持續(xù)高速增長(zhǎng)。一方面DeepSeek作為開源路線的堅(jiān)定踐行者,有望受到全球開發(fā)者的高度關(guān)注;另一方面受益于春節(jié)期間信息傳播下沉,DeepSeek的國(guó)內(nèi)滲透率將持續(xù)提升。DeepSeek-R1在推理任務(wù)上基本實(shí)現(xiàn)與OpenAI-o1相當(dāng)?shù)男阅?,較o3模型仍有差距。DeepSeek在R1模型的測(cè)試過程中,選取英文、中文、數(shù)學(xué)、代碼等基準(zhǔn)測(cè)試,與Claude-3.5、GPT-4o、DeepSeek-V3、OpenAIo1、OpenAIo1-mini等模型進(jìn)行比較:教育為導(dǎo)向的知識(shí)任務(wù):在以MMLU(R190.8分;V388.5分;o191.8分)和GPQADiamond(R171.5分;V359.1分;o175.7分;o387.7分)為代表的知識(shí)基準(zhǔn)上,R1相比V3表現(xiàn)出更優(yōu)越的性能,主因大規(guī)模2計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告強(qiáng)化學(xué)習(xí)(RL)促進(jìn)STEM相關(guān)問題上準(zhǔn)確性顯著進(jìn)步;在依賴長(zhǎng)上下文的FRAMES(R182.5分;V373.7分)基準(zhǔn),R1同樣展示了強(qiáng)大的文檔分析能力。中英文搜索和數(shù)據(jù)分析任務(wù):在英文事實(shí)基準(zhǔn)測(cè)試SimpleQA(R130.1分;V324.9分;o147.0分)上,R1優(yōu)于V3,展現(xiàn)了模型基于事實(shí)的查詢能力;而在中文事實(shí)基準(zhǔn)測(cè)試C-SimpleQA(R163.7分;V368.0分)上,R1表現(xiàn)不如V3,主要系安全強(qiáng)化學(xué)習(xí)后模型傾向于拒絕回答某些查詢。如果沒有安全RL,R1的準(zhǔn)確率可以ArenaHard(R192.3分;V385.5分)等基準(zhǔn)測(cè)試中同樣表現(xiàn)較好,展現(xiàn)了模型在遵循格式指令、寫作任務(wù)和開放域問答上的能力。數(shù)學(xué)任務(wù):在數(shù)學(xué)任務(wù)上,R1表現(xiàn)出與o1相當(dāng)?shù)男阅?,?yōu)于其他非推理模型,突出了推理模型在數(shù)學(xué)測(cè)試中的主導(dǎo)地位。例如在AIME2024基準(zhǔn)上,R1/V3/o1/o3分別得分79.8/39.2/79.2/96.7分;在Math-500基準(zhǔn)上,R1/V3/o1分別得分97.3/90.2/96.4分。編碼任務(wù):推理模型在數(shù)學(xué)測(cè)試中同樣表現(xiàn)更佳,例如在Codeforces基準(zhǔn)上,R1/V3/o1/o3分別得分2029/1134/2061/2727分,分別超過96.3%/58.7%/96.6%/99.9%的人類參賽者;在SWE-benchVerified基準(zhǔn)上,R1/V3/o1/o3分別得分49.2/42.0/48.9/71.7分。圖5:DeepSeek-R1和其他代表性模型的比較數(shù)據(jù)來源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》,中信建投3計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告蒸餾技術(shù)能顯著提升小模型推理能力。通過向更高效的小模型蒸餾DeepSeek-R1的輸出,能夠顯著提升小模型推理能力。例如,向Qwen2.5-Math-7B蒸餾R1模型得到的DeepSeek-R1-Distill-Qwen-7B(簡(jiǎn)稱R1-7B,下同全面超越非推理模型如GPT-4o;向Qwen2.5-14B蒸餾得到R1-14B在所有評(píng)估指標(biāo)上均超過了QwQ-32B-Preview;而向Qwen2.5-32B和Llama-3.3-70B-Instruct蒸餾得到的R1-32B和R1-70B在大多數(shù)基準(zhǔn)測(cè)試中顯著圖6:DeepSeek-R1蒸餾模型評(píng)估數(shù)據(jù)來源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》,中信建投Janus-Pro在多模態(tài)理解和生成方面優(yōu)于統(tǒng)一模型和單一功能模型。Janus-pro主要延續(xù)Janus通過解耦多模態(tài)理解和生成的研究思路,通過優(yōu)化訓(xùn)練策略、擴(kuò)展訓(xùn)練數(shù)據(jù)和模型規(guī)模等方面提高模型性能:多模態(tài)理解:在Janus測(cè)試過程中選取POPE、MME-P、MMB、SEED、MMMU、MM-Vet等廣泛認(rèn)可的圖像視覺語言基準(zhǔn)測(cè)試,同時(shí)包括了一種用于真實(shí)世界視覺推理和組合式問答的新數(shù)據(jù)集GQA。與其他前沿圖像理解生成統(tǒng)一模型和僅用于理解的模型相比,Janus-Pro取得了總體最佳的結(jié)果,例如Janus-Pro-7B在多模態(tài)理解基準(zhǔn)MMBench上得分79.2,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)等,主因其將多模態(tài)理解和生成的視覺編碼解耦,緩解了這兩個(gè)任務(wù)之間的沖突。此外,Janus-Pro與規(guī)模更大的模型相比仍具競(jìng)爭(zhēng)力,例如Janus-Pro-7B在除GQA外的其他基準(zhǔn)測(cè)試上的表現(xiàn)都優(yōu)于TokenFlow-XL(13B)。文本-圖像生成:為評(píng)估Janus視覺生成能力,DeepSeek采用GenEval(文本到圖像構(gòu)圖能力基準(zhǔn)測(cè)試)和DPG-Bench(密集提示圖基準(zhǔn)測(cè)試)兩個(gè)工具進(jìn)行測(cè)試。Janus-Pro-7B在GenEval上的總體準(zhǔn)確率達(dá)到80%,超過了所有其他統(tǒng)一模型或僅用于生成的模型,包括Transfusion(63%)、SD3-Medium(74%)和DALL-E3(67%反映Janus-Pro具有更好的指令跟隨能力。同時(shí),Janus-Pro在DPG-Bench上的得分為84.19,超過了所有其他方法,表明Janus-Pro在遵循用于文本到圖像生成的密集指令方面表現(xiàn)出色。4計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告資料來源:《Janus-Pro:UnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling》,中信建投資料來源:《Janus-Pro:UnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling》,中信建投我們認(rèn)為,DeepSeek-R1性能已基本達(dá)到OpenAI-o1水平,較o3模型基準(zhǔn)測(cè)試表現(xiàn)仍有不小差距,隨著DeepSeek在MoE架構(gòu)、強(qiáng)化學(xué)習(xí)等技術(shù)上進(jìn)一步迭代,推理模型性能表現(xiàn)有望持續(xù)增長(zhǎng);Janus-Pro在多模態(tài)理解和生成方面則相對(duì)表現(xiàn)較好,一定程度驗(yàn)證了圖像理解和生成解耦思路的可行性。1.3第三問:如何看待DeepSeek-DeepSeek通用及推理模型成本相較于OpenAI同類模型下降至數(shù)十分之一以下:通用模型方面,2024年12月26日DeepSeek-V3更新上線,模型API服務(wù)定價(jià)調(diào)整為每百萬輸入tokens0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens8元。此外,V3模型設(shè)置長(zhǎng)達(dá)45天的優(yōu)惠價(jià)格體驗(yàn)期:2025年2月8日前,V3的API服務(wù)價(jià)格仍保持每百萬輸入tokens0.1元(緩存命中)/1元(緩存未命中),每百萬輸出tokens2元。與此同時(shí),OpenAIGPT-4o的API服務(wù)定價(jià)為每百萬輸入tokens1.25美元(緩存命中)/2.5美元(緩存未命中),每百萬輸出tokens10美元。推理模型方面,DeepSeek-R1API服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中每百萬輸出tokens16元。而OpenAIo1的API服務(wù)定價(jià)為每百萬輸入tokens7.5美元(緩存命中)/15美元(緩存未命中),每百萬輸出tokens60美元。5計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告資料來源:DeepSeek公眾號(hào),中信建投資料來源:DeepSeek公需要注意的是,不同模型token切分方法可能不同,通常1token可對(duì)應(yīng)1-2個(gè)中文漢字,或?qū)?yīng)3-4個(gè)英文字符,或0.75個(gè)英文單詞。表2:不同大模型漢字/英文token消耗平臺(tái)1token與漢字的關(guān)系1token與英文的關(guān)系DeepSeek-V3(R1的基礎(chǔ)模型)總訓(xùn)練成本僅為557.6萬美元,但不包括架構(gòu)、算法等成本。以H800算力計(jì)算,DeepSeek-V3預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,耗費(fèi)266.4萬個(gè)GPU小時(shí),加上上下文長(zhǎng)度擴(kuò)展所需的11.9萬個(gè)GPU小時(shí)和后訓(xùn)練階段的0.5萬個(gè)GPU小時(shí),DeepSeek-V3的完整訓(xùn)練僅需278.8萬個(gè)GPU小時(shí);假設(shè)H800GPU的租用價(jià)注意的是,上述成本僅包括DeepSeek-V3的正式訓(xùn)練成本,不包括與架構(gòu)、算法或數(shù)據(jù)的前期研究及消融實(shí)驗(yàn)相關(guān)的成本。表3:DeepSeek-V3的訓(xùn)練成本訓(xùn)練成本預(yù)訓(xùn)練上下文拓展后訓(xùn)練注:假設(shè)H800的租賃價(jià)格為每GPU小時(shí)2美元根據(jù)我們測(cè)算,GPT-4需要2.5萬張A100訓(xùn)練95天(5700萬A100GPU小時(shí)),OpenAIo1需要用3.2萬張H100訓(xùn)練90天(6912萬H100SXMGPU小時(shí)1)GPT-4由16個(gè)111B的MoE模型構(gòu)成,其中兩個(gè)用于向前傳播,另有55B被用做注意力機(jī)制的共享,則GPT-4的激活參數(shù)量約為280B,我們假定o1模型激活6計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告參數(shù)量是GPT-4的兩倍,達(dá)到560B;2)GPT-4的預(yù)訓(xùn)練數(shù)據(jù)集token量為13B,我們假定o1模型接近其兩倍,達(dá)到25B;3)GPT-4的訓(xùn)練時(shí)間約為90-100天,我們?nèi)≈虚g值95天,并假定o1的訓(xùn)練周期為90天;4)GPT-4的GPU利用率在32%到36%之間,我們?nèi)≈虚g值34%,并假定o1GPU利用率也為34%;5)根據(jù)OpenAI在ScalingLaws論文中給出的經(jīng)驗(yàn)公式計(jì)算(C=rT≈6*P*D,P為模型參數(shù)量,D為訓(xùn)練集token大小,r為訓(xùn)練集群硬件FLOPS總吞吐),則OpenAIo1預(yù)訓(xùn)練需要用3.2萬張H100。表4:GPT-4與OpenAIo1訓(xùn)練GPU數(shù)量模型GPT-4OpenAIo1模型激活參數(shù)量(B)預(yù)訓(xùn)練Token量(T)理論算力需求(FLOPS)訓(xùn)練天數(shù)GPU型號(hào)單卡算力(TFLOPS,F(xiàn)P16)算力利用率(MFU)算法迭代、架構(gòu)升級(jí)促進(jìn)DeepSeek-V3模型訓(xùn)練成本降低,符合產(chǎn)業(yè)趨勢(shì)。相較于GPT-4和o1模型,DeepSeek-R1的基礎(chǔ)模型DeepSeek-V3訓(xùn)練成本明顯更低,結(jié)合V3技術(shù)報(bào)告和上述計(jì)算過程,我們認(rèn)為成本優(yōu)化主要緣于:1)V3模型通過DeepSeekMoE架構(gòu)(3.1中將進(jìn)一步說明使用更細(xì)粒度專家模型,同時(shí)隔離部分共享專家,提高計(jì)算資源利用率,激活參數(shù)少(僅37B算力消耗低;2)V3模型采用MLA算法(3.1中將進(jìn)一步說明通過低秩聯(lián)合壓縮注意力鍵值,減少推理時(shí)的鍵值(KV)緩存,降低計(jì)算量;3)DualPipe框架實(shí)現(xiàn)高效流水線并行,或顯著提高GPU利用率;4)DeepSeek提出了一種利用FP8數(shù)據(jù)格式進(jìn)行訓(xùn)練的細(xì)粒度混合精度框架,通過低精度訓(xùn)練優(yōu)化訓(xùn)練效率。二、技術(shù)不斷革新,大模型ScalingLaw仍有效通過架構(gòu)和基礎(chǔ)設(shè)施創(chuàng)新,DeepSeek-V3實(shí)現(xiàn)了高效訓(xùn)練,奠定R1模型優(yōu)化基礎(chǔ)。架構(gòu)方面,DeepSeek-V3延續(xù)了V2模型的MLA和DeepSeekMoE架構(gòu),同時(shí)進(jìn)一步開創(chuàng)了無輔助損失的負(fù)載均衡策略,并設(shè)定了多token預(yù)測(cè)(MTP)訓(xùn)練目標(biāo)以增強(qiáng)性能:多頭潛在注意力(MLALLM的核心機(jī)制是自注意力(Self-Attention其要求模型在生成每個(gè)token時(shí)考慮之前所有詞的關(guān)系,則假設(shè)文本長(zhǎng)度n時(shí)總體復(fù)雜度為O(n3)=O(Σn2);過去的研究提出了KVCache方法,利用鍵值對(duì)(KV)存儲(chǔ)已計(jì)算的注意力信息,此時(shí)總體復(fù)雜度降低為O(n2);而MLA則進(jìn)一步通過投影的7計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告方式,將token的相異信息通過投影矩陣存儲(chǔ),在幾乎不損失信息的情況下減少鍵值的緩存需求。DeepSeekMoE:專家混合模型(MoE)是當(dāng)前大模型技術(shù)中對(duì)前饋神經(jīng)網(wǎng)絡(luò)(FNN)的一種替代方案。不同于FNN需要全部權(quán)重參與計(jì)算,MoE利用門控機(jī)制判斷輸入數(shù)據(jù)需要由哪些專家模型參與處理。相較于主流MoE模型,DeepSeekMoE使用更細(xì)粒度的專家,并隔離一些模型作為共享專家,進(jìn)一步優(yōu)化了激活參數(shù)。此外,為解決專家負(fù)載不平衡導(dǎo)致的路由崩潰和計(jì)算效率降低,DeepSeek提出無輔助損失負(fù)載均衡策略,為每個(gè)專家模型添加可動(dòng)態(tài)調(diào)整的偏差項(xiàng),確保訓(xùn)練過程中專家負(fù)載平衡、提高模型性能。圖11:DeepSeek-V3基本架構(gòu)數(shù)據(jù)來源:《DeepSeek-V3TechnicalReport》,中信建投多token預(yù)測(cè)(MTP主流大模型token-by-token生成序列,而每次token生成需要頻繁與訪存交互,從而因?yàn)樵L存效率形成訓(xùn)練或推理的瓶頸。MTP方法主要將單token的生成,轉(zhuǎn)變成多token的生成,提升訓(xùn)練和推理的性能。DeepSeek主要對(duì)過往MTP算法進(jìn)行了一定優(yōu)化,順序預(yù)測(cè)額外token,并在每個(gè)預(yù)測(cè)深度保持8計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告數(shù)據(jù)來源:《DeepSeek-V3TechnicalReport》,中信建投除了基礎(chǔ)架構(gòu),DeepSeek還在基礎(chǔ)設(shè)施方面進(jìn)行了一定優(yōu)化。例如設(shè)計(jì)了一種創(chuàng)新的管道并行算法DualPipe,在每一對(duì)前向和后向塊內(nèi)重疊計(jì)算和通信,提高通信效率、加速了模型訓(xùn)練;提出了一種用于FP8訓(xùn)練的混合精度框架,其中大多數(shù)計(jì)算密集型操作在FP8精度下進(jìn)行,而一些關(guān)鍵操作則戰(zhàn)略性地保持在原始數(shù)據(jù)格式以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性;訓(xùn)練過程中,采用英偉達(dá)PTX(并行線程執(zhí)行)匯編級(jí)編程替代標(biāo)準(zhǔn)CUDA方案,實(shí)現(xiàn)了硬件級(jí)深度優(yōu)化,減少了計(jì)算冗余,提高了推理速度。圖13:DeepSeek-V3DualPipe調(diào)度策略數(shù)據(jù)來源:《DeepSeek-V3TechnicalReport》,中信建投圖14:DeepSeek-V3混合精度框架數(shù)據(jù)來源:《DeepSeek-V3TechnicalReport》,中信建投R1-Zero驗(yàn)證純強(qiáng)化學(xué)習(xí)(RL)對(duì)推理能力的提升,R1則強(qiáng)調(diào)冷啟動(dòng)和多階段訓(xùn)練的平衡。R1-Zero的特9計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告別之處在于,其無需任何監(jiān)督微調(diào)數(shù)據(jù)即可獲得強(qiáng)大的推理能力,反映了模型僅通過強(qiáng)化學(xué)習(xí)就能有效學(xué)習(xí)和泛化的能力。具體而言,R1-Zero模型在RL過程中延續(xù)了DeepSeek-V3組相對(duì)策略優(yōu)化算法(GRPO通過組內(nèi)獎(jiǎng)勵(lì)對(duì)比優(yōu)化策略,而不需要額外的判別器,最終實(shí)現(xiàn)訓(xùn)練集上的平均響應(yīng)長(zhǎng)度持續(xù)提升,自然地學(xué)會(huì)了通過更多的思考時(shí)間來解決推理任務(wù);此外,R1-Zero訓(xùn)練過程自然地涌現(xiàn)出“思考能力”,即模型自發(fā)學(xué)會(huì)了重新評(píng)估其初始回答,并為問題分配更多的思考時(shí)間,這種“反思”的特性能夠一定程度解決大模型幻覺問題(大模型逐token輸出,過去沒有機(jī)制去糾正已經(jīng)輸出的錯(cuò)誤,反而會(huì)繼續(xù)用錯(cuò)誤掩蓋先前的問題,帶來幻覺問題)。盡管R1-Zero模型展現(xiàn)了強(qiáng)大的推理能力,但仍面臨可讀性差和語言混合等挑戰(zhàn),R1模型則通過冷啟動(dòng)和多階段訓(xùn)練解決了上述問題。R1同樣從DeepSeek-V3-Base基礎(chǔ)模型出發(fā),經(jīng)過數(shù)千條優(yōu)質(zhì)長(zhǎng)鏈思維(CoT)數(shù)據(jù)微調(diào)(SFT)作為冷啟動(dòng),使模型輸出更符合要求、可讀性更強(qiáng);而后,針對(duì)微調(diào)后的模型采用與R1-Zero相同的大規(guī)模強(qiáng)化學(xué)習(xí),并引入語言一致性獎(jiǎng)勵(lì),直至模型在推理任務(wù)上達(dá)到收斂;面向推理的強(qiáng)化學(xué)習(xí)收斂后,利用生成的檢查點(diǎn)收集新的SFT數(shù)據(jù),從而融入來自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫作、角色扮演和其他通用任務(wù)中的能力;最后,為了進(jìn)一步使模型與人類偏好保持一致,實(shí)施次級(jí)RL階段,旨在提高模型的有用性和無害性、精煉其推理能力。通過冷啟動(dòng)和多階段訓(xùn)練,R1模型最終具備較強(qiáng)的推理性能,同時(shí)在可讀性上表現(xiàn)較好。R1-R1-Zero從V3-BaseRL而來,無需SFTR1R1則從V3-Base分段訓(xùn)練而來資料來源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》,中信建投資料來源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》,AINLP公眾號(hào),中信建投R1系列模型提供了RLScalingLaw的可行方向。實(shí)際上,在OpenAI推出o1模型時(shí)即發(fā)現(xiàn)了推理性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升的“RLScalinglaw”,但業(yè)內(nèi)尚未通過過程獎(jiǎng)勵(lì)模型(PRM)和蒙特卡洛樹搜索(MCTS)等方法做出較好的效果,R1的技術(shù)報(bào)告更是提到PRM和MCTS存在難以規(guī)?;卣埂ⅹ?jiǎng)勵(lì)欺騙等問題。R1模型的技術(shù)報(bào)告提供了一種多階段訓(xùn)練的方式,其中在第一階段RL過程中,研究人員可以通過擴(kuò)大RL訓(xùn)練集的方式提升模型性能,或?yàn)橐环N可以驗(yàn)證的“RLScalinglaw”方向;OpenAI首席研究官M(fèi)arkChen也承認(rèn),“DeepSeek的確獨(dú)立發(fā)現(xiàn)了一些o1的核心思路”。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告蒸餾使小模型具備較強(qiáng)邏輯推理能力的思路或與OpenAIo1-mini不同。據(jù)張俊林分析,o1系列模型更可能是重新訓(xùn)練的(OpenAI多次強(qiáng)調(diào)o1-mini邏輯推理能力強(qiáng),但在世界知識(shí)方面弱;如果其基于GPT系列模型而來,世界知識(shí)應(yīng)該不會(huì)弱于GPT4o-mini而DeepSeek-R1則是在V3的基礎(chǔ)上通過強(qiáng)化學(xué)習(xí)訓(xùn)練得到。因此,DeepSeek通過向更高效的小模型蒸餾DeepSeek-R1的輸出,顯著提升小模型推理能力,更可能走出了與OpenAIo1-mini不同的道路,從而實(shí)際上打破了之前“小模型邏輯推理能力難以通過蒸餾提升”的研究結(jié)論。此時(shí),小模型有望通過“能力分治”(DCA)的模式將語言、世界知識(shí)及邏輯推理三個(gè)能力解耦,即語言能力靠小模型自身、邏輯推理靠RL+蒸餾,世界知識(shí)靠外掛RAG,從而具備目前最強(qiáng)大模型的能力,對(duì)于中小型開發(fā)者而言,部署模型也將更加友好。我們認(rèn)為,DeepSeek-V3/R1系列模型的核心突破在于1)技術(shù)及架構(gòu)升級(jí)顯著優(yōu)化模型訓(xùn)練成本,即工程優(yōu)化了MoE模型架構(gòu),預(yù)計(jì)未來各廠商仍將圍繞MoE模型進(jìn)行注意力頭的架構(gòu)優(yōu)化;2)組相對(duì)策略優(yōu)化算法(GRPO)實(shí)質(zhì)上僅依賴模型自身近些迭代,實(shí)現(xiàn)了“反思能力”;3)提供了一種具體可行的“RLScalinglaw”方向,各廠商或?qū)⒏M(jìn)并繼續(xù)探索其他方向;4)蒸餾使小模型具備較強(qiáng)邏輯推理能力,有望促進(jìn)中小型開發(fā)者推出相關(guān)應(yīng)用。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告2.2第五問:Janus系列模型技術(shù)革新有Janus系列模型緩解多模態(tài)理解和生成的沖突,提升模型能力表現(xiàn)。多模態(tài)理解與生成任務(wù)本身存在視覺編碼器需求的沖突,其中在理解任務(wù)中,視覺編碼器的目的是提取高層次的語義信息并進(jìn)行表示;而生成任務(wù)則主要關(guān)注生成局部細(xì)節(jié)并在圖像中保持全局一致性,因此需要低維度編碼表示空間結(jié)構(gòu)和紋理細(xì)節(jié)。Janus系列模型的核心技術(shù)在于實(shí)現(xiàn)多模態(tài)理解與生成的解耦,通過2個(gè)獨(dú)立的視覺編碼路徑,緩解多模態(tài)理解和生成的沖突,從而提高模型的能力表現(xiàn)和可擴(kuò)展性。數(shù)據(jù)來源:《Janus-Pro:UnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling》,中信建投多模態(tài)生成模型架構(gòu)尚無定論,自回歸和擴(kuò)散模型持續(xù)發(fā)展。目前圖像生成模型主要包括以Transformer為代表的自回歸生成、以DDPM、LDM、DiT為代表的擴(kuò)散模型,以及MaskGIT、MAR等掩碼自回歸圖像生成三類架構(gòu)。自回歸架構(gòu)通過算法逐個(gè)生成像素,DeepSeek的Janus系列模型為其中代表;掩碼自回歸則優(yōu)化了單次像素生成數(shù)量和順序,提高了自回歸模型的速度和表現(xiàn);擴(kuò)散模型的代表包括Sora,其將圖像生成表示成噪聲圖像變化至目標(biāo)圖像的過程,輸入輸出自始至終都是完整圖像。目前,自回歸和擴(kuò)散模型均有前沿技術(shù)持續(xù)性突破,帶來模型能力的持續(xù)提升。數(shù)據(jù)來源:《ScalableDiffusionModelswithTransformers》,中信建投計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告我們認(rèn)為,多模態(tài)模型整體仍處于技術(shù)探索過程中,Janus系列核心在于提供了一種理解和生成解耦的架構(gòu),一定程度提升了模型表現(xiàn),后續(xù)自回歸和DiT技術(shù)將進(jìn)一步發(fā)展,帶來多模態(tài)模型性能的持續(xù)優(yōu)化。2.3第六問:DeepSeek數(shù)據(jù)集的特點(diǎn)是什么?合成(生成)數(shù)據(jù)在大模型訓(xùn)練過程中發(fā)揮著重要作用。在高質(zhì)量訓(xùn)練數(shù)據(jù)耗盡,以及互聯(lián)網(wǎng)中充斥大量噪聲數(shù)據(jù)的背景下,合成數(shù)據(jù)已成為大模型訓(xùn)練過程中數(shù)據(jù)集的重要來源,截至2024年9月,在HuggingFace平臺(tái)上標(biāo)注為“合成”的數(shù)據(jù)集已超過1000個(gè)。具體而言,合成數(shù)據(jù)主要由算法、模型生成,為大模型訓(xùn)練提供更豐富且針對(duì)性強(qiáng)的信息,幫助拓展模型性能:通用大模型:在通用大模型訓(xùn)練中,合成數(shù)據(jù)主要用于豐富數(shù)據(jù)集,提升模型性能。以DeepSeek-V3的訓(xùn)練為例,其在監(jiān)督微調(diào)階段借助DeepSeek-R1模型生成樣本數(shù)據(jù),經(jīng)RL訓(xùn)練后用拒絕采樣篩選高質(zhì)量數(shù)據(jù)用于最終模型訓(xùn)練,有效提升了模型的推理能力。推理模型:在推理模型訓(xùn)練中,合成數(shù)據(jù)主要用于優(yōu)化訓(xùn)練流程。例如,DeepSeek-R1在冷啟動(dòng)階段利用R1-Zero生成+人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),并在監(jiān)督微調(diào)階段通過V3模型收集了約60萬條與推理相關(guān)的訓(xùn)練樣本,以及約20萬條與推理無關(guān)的訓(xùn)練樣本。此外,R1向小模型蒸餾的過程實(shí)際上也是通過R1生成數(shù)據(jù)對(duì)小模型進(jìn)行監(jiān)督微調(diào)實(shí)現(xiàn)的。多模態(tài)模型:多模態(tài)模型訓(xùn)練中,合成數(shù)據(jù)能改善數(shù)據(jù)質(zhì)量,顯著強(qiáng)化視覺生成能力。Janus-Pro在預(yù)訓(xùn)練階段相較于Janus引入約7200萬個(gè)合成美學(xué)數(shù)據(jù)樣本,使真實(shí)數(shù)據(jù)與合成數(shù)據(jù)比例達(dá)到1:1,從而加速了模型收斂速度,提升圖像生成質(zhì)量。而Kimi-1.5作為以強(qiáng)化學(xué)習(xí)方式訓(xùn)練的多模態(tài)大模型,分別在預(yù)訓(xùn)練階段通過合成數(shù)據(jù)強(qiáng)化了推理和基于知識(shí)任務(wù)的解答能力,在多模態(tài)訓(xùn)練階段合成了圖像文本交錯(cuò)數(shù)據(jù)。圖22:合成數(shù)據(jù)一般生成范式GRPO算法在一定程度上使模型擺脫人類經(jīng)驗(yàn)的束縛。如2.1所述,R1-Zero模型在RL過程中延續(xù)了DeepSeek-V3組的相對(duì)策略優(yōu)化算法(GRPO)。該算法通過組內(nèi)獎(jiǎng)勵(lì)對(duì)比優(yōu)化策略,無需額外的判別器,最終實(shí)現(xiàn)了訓(xùn)練集上平均響應(yīng)長(zhǎng)度的持續(xù)提升,使模型自然地學(xué)會(huì)通過更多思考時(shí)間來解決推理任務(wù)。實(shí)際上,GRPO對(duì)于RL數(shù)據(jù)集的處理同樣具有重要意義。具體而言,PPO算法需要依賴價(jià)值模型估計(jì)狀態(tài)價(jià)值,以幫助計(jì)算優(yōu)勢(shì)函數(shù);而GRPO算法只對(duì)輸出的語言內(nèi)容進(jìn)行相對(duì)優(yōu)勢(shì)計(jì)算,不需要設(shè)計(jì)價(jià)值模型。價(jià)值模型的設(shè)定本身就包含了人類偏好,這種偏好通過人類經(jīng)驗(yàn)限定了數(shù)據(jù)集的價(jià)值。而GRPO算法本質(zhì)上可看作模型生成內(nèi)容的自我博弈,它能讓模型擺脫人類經(jīng)驗(yàn)的束縛,通過提升思考深度不斷拓展性能,最終甚至可能超越人類水平。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告數(shù)據(jù)來源:《LargeLanguageModelsSelf-ComposeReasoningStructures》,中信建投我們認(rèn)為,DeepSeek-V3/R1/Janus等模型對(duì)于合成數(shù)據(jù)的應(yīng)用符合大模型研究趨勢(shì),而GRPO算法則進(jìn)一步使模型在RL過程中擺脫了人類經(jīng)驗(yàn)的限制,從而能夠最大程度挖掘數(shù)據(jù)集的價(jià)值,向模型超越人類,最終實(shí)2.3第七問:ScalingLaw到底是否有效?訓(xùn)練側(cè)Scalinglaw推動(dòng)模型能力持續(xù)提升,但仍面臨技術(shù)、算力、數(shù)據(jù)的制約。早在2020年,OpenAI即在論文中提出了“Scalinglaw”,其內(nèi)涵在于大模型的最終性能主要與計(jì)算量、模型參數(shù)量和訓(xùn)練數(shù)據(jù)量三者的大小相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。在“Scalinglaw”的思路下,業(yè)內(nèi)追求在訓(xùn)練側(cè)用更多的高質(zhì)量數(shù)據(jù),訓(xùn)練更大參數(shù)規(guī)模的模型,尤其在MoE架構(gòu)并行計(jì)算的加持下,大模型參數(shù)甚至能夠提升至萬億以上,極大程度提高了模型的效果。然而,受到技術(shù)、算力、數(shù)據(jù)的制約,訓(xùn)練側(cè)“Scalinglaw”正面臨瓶頸:1)更高參數(shù)規(guī)模的模型訓(xùn)練比較復(fù)雜:當(dāng)參數(shù)規(guī)模提升到萬億規(guī)模,模型進(jìn)一步調(diào)整的技術(shù)方式仍待突破;2)算力規(guī)模一定程度制約了模型發(fā)展:英偉達(dá)H100目前可以做到單一集群3.2萬張卡充分互聯(lián),每2小時(shí)會(huì)出錯(cuò)一次(FounderPark訪談拾象科技CEO李廣密)。一旦算力集群增加到10萬卡,可能每20-30分鐘即會(huì)出錯(cuò)一次,對(duì)數(shù)據(jù)中心的運(yùn)維能力要求較高,否則會(huì)導(dǎo)致算力利用率明顯下降。此時(shí)需要性能更強(qiáng)的算力卡出現(xiàn)。3)高質(zhì)量數(shù)據(jù)缺失:早有消息稱大模型訓(xùn)練已經(jīng)耗盡了高質(zhì)量數(shù)據(jù),因此如果只是簡(jiǎn)單提升訓(xùn)練集規(guī)模,往往重復(fù)的數(shù)據(jù)占據(jù)了主要部分,從而對(duì)模型能力的提升有限。而數(shù)據(jù)合成的技術(shù)仍未能突破,同樣一定程度上制約了模型的發(fā)計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告圖24:大模型的Scalinglaw數(shù)據(jù)來源:《ScalingLawsforNeuralLanguageModels》,中信建投思維鏈等方式打開推理側(cè)大模型能力提升空間。當(dāng)訓(xùn)練側(cè)“Scalinglaw”進(jìn)度相對(duì)放緩,OpenAI于2024年9月發(fā)布了系列新模型o1,其利用強(qiáng)化學(xué)習(xí)技術(shù),通過提高推理側(cè)的思考時(shí)間,大幅優(yōu)化了模型表現(xiàn);還能夠在訓(xùn)練過程中生成高質(zhì)量數(shù)據(jù),解決天然數(shù)據(jù)缺失的問題。以思維鏈技術(shù)為例,其類比人類思考過程,使大模型在推理過程中把復(fù)雜問題拆解成若干簡(jiǎn)單步驟,從用戶提出的問題出發(fā),逐步生成正確答案。OpenAIo1模型性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升,后訓(xùn)練及推理階段思考深度(時(shí)間)或?qū)⒊蔀樾碌摹癝calinglaw”;相較于OpenAI未開源推理算法,DeepSeek-R1系列模型提供了RLScalingLaw的可行方向,有望促進(jìn)各廠商跟進(jìn)并繼續(xù)探索其他推理側(cè)拓展方向。圖25:CoT方式概述LanguageModelsScalinglaw三條路徑齊頭并進(jìn),助力模型性能持續(xù)提升。正如英偉達(dá)CEO黃仁勛在CES2025上的主題發(fā)言提到的,o1模型推出后,大模型Scalinglaw已經(jīng)實(shí)際上分為了三個(gè)路徑:Pre-TrainingScaling:對(duì)應(yīng)OpenAI2020年提出的結(jié)論,訓(xùn)練數(shù)據(jù)規(guī)模越大、模型規(guī)模越大、計(jì)算資源投入越多,AI模型的性能就會(huì)相應(yīng)提升。盡管Pre-TrainingScaling目前受技術(shù)、算力、數(shù)據(jù)影響遭遇瓶頸,但更強(qiáng)大的基礎(chǔ)模型仍然是各廠商追求的主要方向,DeepSeek-R1的技術(shù)報(bào)告同樣提出,“更大基礎(chǔ)模型發(fā)現(xiàn)的推理模式對(duì)于提升推理能力至關(guān)重要”。未來隨著MoE架構(gòu)、模型Infra等方面的優(yōu)化,Pre-TrainingScaling有望持計(jì)算機(jī)計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告Post-TrainingScaling:包括強(qiáng)化學(xué)習(xí)和人類反饋等技術(shù),通過輸入大量?jī)?yōu)質(zhì)的提示,優(yōu)化模型性能表現(xiàn)。實(shí)際上,受限于人類工作效率,原有的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)存在難以規(guī)模化擴(kuò)張的問題(例如人工標(biāo)注數(shù)據(jù)效率較低、不同標(biāo)注者標(biāo)準(zhǔn)不一致等而DeepSeek-R1純RL的技術(shù)方案實(shí)際上打破了這種限制,為各廠商提供了Post-TrainingScaling的可行方案。Test-TimeScaling:強(qiáng)調(diào)重新調(diào)配資源,即在推理階段考慮投入多少算力,并利用思維鏈將問題分解成若干個(gè)小步驟逐一解決。通過在模型推理階段更加深入的思考,模型將具備更強(qiáng)勁的性能。 更大基礎(chǔ)模型發(fā)現(xiàn)的推理模式對(duì)于提升推理能力至關(guān)重要。資料來源:英偉達(dá),新浪財(cái)經(jīng),中信建投資料來源:《DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning》,中信建投我們認(rèn)為,ScalingLaw仍有效,同時(shí)RL技術(shù)的不斷迭代為模型能力的規(guī)?;瘮U(kuò)張帶來了新的方向。特別是DeepSeek通過架構(gòu)和技術(shù)創(chuàng)新,提出了純RL和分階段的模型訓(xùn)練方法,并實(shí)現(xiàn)了較好的性能表現(xiàn)。預(yù)計(jì)各廠商將陸續(xù)跟進(jìn)DeepSeek的算法方向,并不斷對(duì)架構(gòu)進(jìn)行調(diào)整,以探索出更為理想的模型優(yōu)化方式。三、DeepSeek-R1促進(jìn)AI平權(quán),產(chǎn)業(yè)鏈享受發(fā)展紅利3.1第八問:R1是否意味著AI平權(quán)已經(jīng)實(shí)現(xiàn)?DeepSeek-R1開源引發(fā)全球復(fù)現(xiàn)熱潮,小模型+RL實(shí)現(xiàn)“反思”涌現(xiàn)。在美國(guó)對(duì)中國(guó)實(shí)施AI芯片封鎖的背景下,DeepSeek以極低的成本成功訓(xùn)練出躋身全球第一梯隊(duì)的推理模型R1。同時(shí),DeepSeek完全開源了模型權(quán)重,所遵循的MITLicense開源協(xié)議極為寬松,允許其他開發(fā)者將模型用于商業(yè)用途并進(jìn)行模型蒸餾,被Facebook首席人工智能科學(xué)家楊立昆譽(yù)為“開源模型對(duì)閉源模型的勝利”。R1發(fā)布以來,全球前沿團(tuán)隊(duì)積極復(fù)現(xiàn),目前已取得較好成效。其中,UC伯克利的團(tuán)隊(duì)在CountDown游戲中復(fù)現(xiàn)了DeepSeekR1-Zero,以不到30美金的成本通過強(qiáng)化學(xué)習(xí),使3B的基礎(chǔ)語言模型完成自我驗(yàn)證和搜索;港科大的團(tuán)隊(duì)只用了8K個(gè)樣本,就在7B模型上復(fù)刻出了DeepSeek-R1-Zero和DeepSeek-R1的訓(xùn)練,使模型在復(fù)雜的數(shù)學(xué)推理上取得強(qiáng)勁的結(jié)果;甚至全球最大開源平臺(tái)HuggingFace團(tuán)隊(duì),也在1月26日官宣開始復(fù)刻DeepSeek-R1的所有pipeline,并將在復(fù)刻完成后,開源所有的訓(xùn)練數(shù)據(jù)和腳本。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告資料來源:新智元,中信建投全球大廠接連接入R1,DeepSeek沖擊下OpenAI戰(zhàn)略方向或?qū)⑥D(zhuǎn)向。盡管美國(guó)質(zhì)疑DeepSeek在安全性、隱私方面的問題,但英偉達(dá)、英特爾、亞馬遜、微軟、AMD等海外巨頭仍紛紛在自家產(chǎn)品中接入了DeepSeek;國(guó)內(nèi)硅基流動(dòng)和華為云同樣聯(lián)合首發(fā)并上線了基于華為云昇騰云服務(wù)的DeepSeekR1/V3推理服務(wù)。受DeepSeek全球熱度沖擊,SamAltman承認(rèn)在開源策略上“站在了歷史錯(cuò)誤的一邊”,并表示正在討論開源部分模型。此外,OpenAI于2月1日緊急更新了o3-mini系列,即使是免費(fèi)用戶也可以通過選擇“Search+Reason”來使用體驗(yàn)o3-mini的搜索功能。然而,o3-mini模型當(dāng)前的定價(jià)為每百萬輸入tokens0.55美元(緩存命中)/1.1美元(緩存未命中),每百萬輸出tokens4.4美元,遠(yuǎn)高于R1模型。圖32:SamAltman承認(rèn)在開源策略計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告參考安卓及iOS份額變化,開源生態(tài)有望為AI產(chǎn)業(yè)注入活力。在智能手機(jī)操作系統(tǒng)領(lǐng)域,安卓的開源與iOS的封閉帶來了截然不同的生態(tài)模式:安卓:Android公司成立于2003年,2005年被Google收購(gòu),并在2007年正式推出了Android操作系統(tǒng)。生態(tài)上,安卓系統(tǒng)開源開放,允許眾多手機(jī)廠商基于其底層架構(gòu)進(jìn)行定制化開發(fā),使其市場(chǎng)份額從2008年的2.8%提升到2011年的48%,但同時(shí)也帶來了專利訴訟、軟件盜版和系統(tǒng)安全等一系列問題;2011年,Google推出Android4,從此安卓設(shè)備逐步正規(guī)化、標(biāo)準(zhǔn)化,直至2024年12月,安卓操作系統(tǒng)市場(chǎng)份額已經(jīng)達(dá)到iOS:同樣在安卓系統(tǒng)正式發(fā)布的2007年,蘋果發(fā)布了搭載iOS系統(tǒng)的第一代iPhone,開啟了智能手機(jī)的新時(shí)代。相較于安卓的開放,蘋果iOS系統(tǒng)采用封閉式生態(tài),嚴(yán)格把控軟件審核環(huán)節(jié),一定程度限制了系統(tǒng)的靈活性,但為用戶提供了一致且高質(zhì)量的使用體驗(yàn)。從市場(chǎng)份額看,近年來iOS系統(tǒng)的市占率相對(duì)穩(wěn)定,2024年12月市場(chǎng)份額為26.04%,低于2009年1月iOS的市場(chǎng)份額35.56%。AI產(chǎn)業(yè):類比手機(jī)操作系統(tǒng)領(lǐng)域,當(dāng)前AI產(chǎn)業(yè)同樣面臨開源和閉源之爭(zhēng)。參考安卓系統(tǒng)發(fā)展歷程,開源模式能夠吸引全球范圍的開發(fā)者參與AI技術(shù)創(chuàng)新,后來者能夠基于已有成果快速進(jìn)行應(yīng)用開發(fā)與產(chǎn)品迭代,從而推動(dòng)AI應(yīng)用的快速落地,推動(dòng)AI產(chǎn)業(yè)加速發(fā)展。AndroidAndroid數(shù)據(jù)來源:statcounter,中信建投我們認(rèn)為,DeepSeek-R1作為開源模型性能接近頭部閉源模型o1,一定程度上已經(jīng)反映了AI平權(quán)。實(shí)際上,過去OpenAI的領(lǐng)先更多基于先發(fā)優(yōu)勢(shì),而當(dāng)開源模型的性能實(shí)現(xiàn)對(duì)閉源模型的追趕,全球的團(tuán)隊(duì)的研發(fā)能力能夠使開源模型的性能始終位于前列。近期各研究團(tuán)隊(duì)對(duì)R1模型的積極復(fù)現(xiàn)更是側(cè)面驗(yàn)證了開源模式的優(yōu)勢(shì)。此外,DeepSeek-R1使小模型具備推理能力成為可能,更低的成本將更有利于開發(fā)者探索AI的實(shí)際落地,帶來更有價(jià)值的產(chǎn)品。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告3.2第九問:DeepSeek出圈對(duì)產(chǎn)業(yè)的影響有幾DeepSeek以其低成本、高性能全面影響AI產(chǎn)業(yè)鏈。AI產(chǎn)業(yè)鏈大致可分為基礎(chǔ)層(算力、數(shù)據(jù)、技術(shù)等)、模型層(通用/行業(yè)大模型、開發(fā)平臺(tái))和應(yīng)用層(通用/垂域應(yīng)用、Agent等)。盡管創(chuàng)始人梁文鋒稱DeepSeek技術(shù)突破只是“美國(guó)每天發(fā)生的大量創(chuàng)新里非常普通的一個(gè)”,但其低成本、高性能,以及為小模型帶來強(qiáng)大推理能力的蒸餾方式,仍對(duì)AI產(chǎn)業(yè)鏈產(chǎn)生了沖擊:算力:DeepSeek的爆火使得“杰文斯悖論”這一經(jīng)濟(jì)學(xué)名詞受到關(guān)注,它是指“燃料效率的提高往往會(huì)增加燃料使用”。如果將該理論拓展到算力領(lǐng)域,模型對(duì)算力應(yīng)用效率的提升反而會(huì)帶來算力需求的增長(zhǎng)。實(shí)際上,“杰文斯悖論”反映了簡(jiǎn)單的經(jīng)濟(jì)學(xué)原理——當(dāng)需求價(jià)格彈性系數(shù)大于1,價(jià)格下降則會(huì)帶來銷售收入增加。因此,DeepSeek影響下算力需求是否增加的關(guān)鍵在于算力的價(jià)格彈性,而這又受到算力用途的影響(一般來說,商品用途多,需求彈性就越大)。算力作為新一輪科技革命的底層基礎(chǔ),將會(huì)應(yīng)用于千行百業(yè),DeepSeek-R1使小模型能通過蒸餾具備較強(qiáng)邏輯推理能力,更進(jìn)一步加速了下游應(yīng)用的產(chǎn)生,則算力的價(jià)格彈性更可能大于1,符合“杰文斯悖論”,從而持續(xù)保持旺盛的需求。此外,梁文鋒在訪談中提到高端芯片禁運(yùn)或?qū)⒊蔀榭c(diǎn),同樣反應(yīng)了算力芯片自主可控的重要性。計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告彈性需求:效率提高20%,導(dǎo)致旅行增加40%。燃料消耗增加,杰文斯悖論發(fā)生。無彈性需求:效率提高20%,導(dǎo)致旅行增加10%。杰文斯悖論不會(huì)發(fā)生。模型:DeepSeek-R1模型的突破實(shí)際上反映了中美在前沿大模型差距的縮小。以發(fā)布于2024年3月的GPT-4為例,2024年1月發(fā)布的智譜GLM-4才在部分benchmark上達(dá)到了其90%-100%的水平,模型差距在10個(gè)月以上;而2025年1月發(fā)布的R1已經(jīng)接近OpenAI2024年9月發(fā)布的o1模型,模型差距縮短到4個(gè)月左右。而大模型本身及其對(duì)應(yīng)的Chatbot產(chǎn)品,用戶切換成本低,存在“贏者通吃”的現(xiàn)象,例如kimi在2024年3月實(shí)現(xiàn)上下文無損輸入長(zhǎng)度提升至200萬字,爆火出圈帶來流量的大幅上漲;2024年12月字節(jié)火山引擎熱度攀升,以及DeepSeek-V3的發(fā)布同樣帶來了流量的快速提升。在此背景下,預(yù)計(jì)大廠將跟進(jìn)DeepSeek模型層的研發(fā),技術(shù)開源亦將促進(jìn)大廠持續(xù)投入,形成正反饋。此外,DeepSeek通過純RL算法、架構(gòu)優(yōu)化等方式實(shí)現(xiàn)了模型性能的提升,或?qū)⒋龠M(jìn)各廠商在相關(guān)領(lǐng)域進(jìn)行更多的探索。50應(yīng)用:DeepSeek-V3/R1作為通用/推理方面的基礎(chǔ)模型,性能升級(jí)及在各類Benchmark跑分中的提高,本身就為應(yīng)用落地帶來了更大的可能性。然而,對(duì)于開發(fā)者而言,更關(guān)鍵的點(diǎn)在于模型能夠和應(yīng)用適配調(diào)優(yōu),計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告提供穩(wěn)定性的API服務(wù),以及性價(jià)比更高的tokens成本。參考2024年5月DeepSeek-V2發(fā)布后帶來的大模型價(jià)格戰(zhàn),即使模型成本更高,字節(jié)、阿里等大廠亦按照燒錢補(bǔ)貼的邏輯大幅降價(jià),本質(zhì)上是因?yàn)殚_發(fā)者價(jià)格敏感,大廠愿意虧錢搶占市場(chǎng)份額,培育開發(fā)者使用習(xí)慣??紤]到DeepSeek-R1開發(fā)和調(diào)用成本本身較低,還通過蒸餾的方式帶來了小模型推理能力的提升,則應(yīng)用開發(fā)者能夠以更低的成本部署模型或調(diào)用API,并保持相對(duì)優(yōu)秀的性能。當(dāng)應(yīng)用開發(fā)門檻降低,預(yù)計(jì)會(huì)出現(xiàn)更多產(chǎn)品探索方向,直至出現(xiàn)具有突破性的“killer”應(yīng)用。同時(shí),DeepSeek-R1的低價(jià),同樣有望帶來推理模型新一輪的價(jià)格戰(zhàn)(o3-mini的價(jià)格本身已經(jīng)驗(yàn)證了這一觀點(diǎn)為開發(fā)者帶來更多性價(jià)比之選。最后,當(dāng)DeepSeek模型的能力達(dá)到全球第一梯隊(duì)后,其作為國(guó)內(nèi)廠商能為國(guó)內(nèi)應(yīng)用開發(fā)者提供更穩(wěn)定的服務(wù)(調(diào)用GPTAPI可能會(huì)受到各種限制),亦將促進(jìn)各類應(yīng)用產(chǎn)生。表5:DeepSeek-V2發(fā)布后,各廠商宣布降價(jià)的模型/最高性能模型價(jià)降價(jià)時(shí)間模型降價(jià)前降價(jià)后(元/萬tokens)降價(jià)幅度輸入:/輸出:/輸入:1輸出:1輸入:1輸出:1輸入:/輸出:/輸入:/輸出:/輸入:1.2輸出:1.2輸出:1.2輸入:1.2輸出:1.2輸入:1.2輸出:1.2輸入:1輸出:1輸出:1計(jì)算機(jī)行業(yè)動(dòng)態(tài)報(bào)告數(shù)據(jù):DeepSeek系列模型的訓(xùn)練過程仍凸顯了高質(zhì)量數(shù)據(jù)的重要性。例如V3模型訓(xùn)練時(shí)使用了14.8萬億涵蓋多種領(lǐng)域和語言的token;R1通過精心篩選和處理的冷啟動(dòng)數(shù)據(jù)提升了模型性能和可讀性;Janus-Pro在訓(xùn)練時(shí)同樣較前代模型增加約9000萬用于多模態(tài)理解的樣本和約7200萬用于視覺生成的合成美學(xué)數(shù)據(jù)。結(jié)合RL范式的可能性,預(yù)計(jì)高質(zhì)量數(shù)據(jù)仍將在模型訓(xùn)練中具有重要意義。4.1第十問:DeepSeek將帶來哪些投資機(jī)會(huì)?算力:算力作為新一輪科技革命的底層基礎(chǔ),將持續(xù)受益于千行百業(yè)的應(yīng)用需求。疊加DeepSeek-R1為推理范式帶來泛化的可能性,預(yù)計(jì)各廠商技術(shù)探索下算力產(chǎn)業(yè)鏈持續(xù)高景氣。此外,中美AI競(jìng)爭(zhēng)加劇,高端算力芯片禁售下自主可控重要性進(jìn)一步凸顯。建議關(guān)注以國(guó)產(chǎn)算力和AI推理需求為核心的算力環(huán)節(jié),尤其是IDC、服務(wù)器、國(guó)產(chǎn)芯片等算力配套產(chǎn)業(yè),推薦海光信息、浪潮信息、軟通動(dòng)力,并關(guān)注AIDC相關(guān)標(biāo)的,如并行科技、寶信軟件等。應(yīng)用:DeepSeek-R1有望引發(fā)新一輪大模型API降價(jià),小模型通過蒸餾具備強(qiáng)勁推理能力,這也將促使開發(fā)者探索更多應(yīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論