【智研咨詢】2025年deepseek技術(shù)全景解析-重塑全球AI生態(tài)的中國(guó)力量_第1頁
【智研咨詢】2025年deepseek技術(shù)全景解析-重塑全球AI生態(tài)的中國(guó)力量_第2頁
【智研咨詢】2025年deepseek技術(shù)全景解析-重塑全球AI生態(tài)的中國(guó)力量_第3頁
【智研咨詢】2025年deepseek技術(shù)全景解析-重塑全球AI生態(tài)的中國(guó)力量_第4頁
【智研咨詢】2025年deepseek技術(shù)全景解析-重塑全球AI生態(tài)的中國(guó)力量_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

.

2025|

N

D

UST

R

Y

R

ES

EAR

C

H

R

E

P

0

R

TDeepSeek

技術(shù)全景解析

重塑全球AI生態(tài)的中國(guó)力量www.chyxx.com

服務(wù)熱線:400-700-9383010-60343812精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)

·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三編制

:智研咨詢01

DeepSeek

企業(yè)背景02

Deepseek

模型家族03

Deepseek

技術(shù)創(chuàng)新04

Deepseek商業(yè)模式05

Deepseek

應(yīng)用場(chǎng)景06

AI大模型市場(chǎng)現(xiàn)狀07

Deepseek對(duì)Al行業(yè)影響總結(jié)www.chyxx.com

服務(wù)熱線:400-700-9383010-60343812精品行研報(bào)告·專項(xiàng)定制·月度專題·市場(chǎng)地位證明·專精特新申報(bào)

·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三CONTENT

PART

01DeepSeek

企業(yè)背景最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)服務(wù)熱線:400-700-9383

專項(xiàng)定制·

月度專題·市場(chǎng)地位證明·

專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃www.chyxx.comDeepSeek

背靠資金實(shí)力雄厚的幻方量化2025年1月,DeepSeek

發(fā)布其最新開源模型DeepSeek

R1,

再度引發(fā)全球人工智能領(lǐng)域關(guān)注。DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月17日,

一家創(chuàng)新型科技公司,專注于開發(fā)先進(jìn)的大語言模型(LM)和

關(guān)技

術(shù)

。DeepSeek

背靠資金實(shí)力雄厚的幻方量化,DeepSeek

創(chuàng)始人為梁文鋒,梁文鋒同時(shí)也是幻方量化的創(chuàng)始人,幻方量化是

國(guó)內(nèi)頭部量化私募管理人,旗下有兩家百億量化私募,分別是2015年6月成立的浙江九章資產(chǎn)和2016年2月成立的寧波幻方量化。DeepSeek

公司簡(jiǎn)介

DeepSeek

股權(quán)結(jié)構(gòu)99%

1%杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司0.1%寧波程采企業(yè)管理咨詢合伙企業(yè)(有限合伙)100%北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司DeepSeek

于浙江杭州市,

成立于2023年

7月。寧波程恩企業(yè)管理咨詢合伙企業(yè)(有限合伙)●1.1

DeepSeek基本情況資料來源:愛企查

www.chyxx.com★北京智研咨詢梁文鋒南海諸島DeepSeek

大模型不斷優(yōu)化迭代回顧其發(fā)展歷史,2024年1月,發(fā)布第

版大模型

-DeepSeek

LLM,

這個(gè)版本使用傳統(tǒng)的Transformer架構(gòu),但在訓(xùn)練方面,已經(jīng)明顯體現(xiàn)出DeepSeek團(tuán)隊(duì)通過不斷優(yōu)化訓(xùn)練策略,達(dá)到節(jié)約成本,提高效率的思想,這點(diǎn)也在后續(xù)的模型迭代中被發(fā)揚(yáng)光

大。2024年5月,

DeepSeek-V2

發(fā)布,從這

代開始,

DeepSeek

模型開始使用混合專家(MoE)架構(gòu),這是傳統(tǒng)Transformer架構(gòu)的

種改進(jìn)和擴(kuò)展,該架構(gòu)使DeepSeek模型能以更低的計(jì)算成本進(jìn)行更復(fù)雜的推理,極大提升了模型的性能。2024年12

,DeepSeek-V3

,V3版

對(duì)MoE

架構(gòu)進(jìn)行了進(jìn)

步優(yōu)化,在維持低訓(xùn)練成本的同時(shí),穩(wěn)定性與多方面性能表現(xiàn)都

達(dá)到了與領(lǐng)先閉源模型相當(dāng)?shù)乃健?025年1月,DeepSeek-R1

發(fā)

,R1模型的推理能力得到極大加強(qiáng),與OpenAl-01模

型不相上下,且推理過程完全透明,因此在全球范圍備受關(guān)注。正式發(fā)布推理模型DeepSeekR1Lite預(yù)覽版正式上線2024年11月2024年9月合并DeepSeekCoder

V2和

DeepSeek

V2

Chat兩個(gè)模型,升級(jí)推出全新的DeepSeek

V2.5新模型DeepSeek

模型家族deepseekDeepSeek

R1DeepSeekV3DeepSeekCoderV2DeepSeekVLDeepSeekV22024年12月宣布DeepSeek

V3

首個(gè)版本上線并同

步開源模型權(quán)重2024年1月發(fā)布第一版大模型——DeepSeek

LLM宣布開源第二

代MoE

大模型

DeepSeekV22024年5月DeepSeek

R1

模型,并同步

開源模型權(quán)重2025年1月DeepSeek發(fā)展歷程DeepSeek

Coder

DeepSeek

Math

DeepSeek

LLMDeepSeek

成立2023年7月DeepSeek

發(fā)展歷程資料來源:智研咨詢整理

www.c智研咨詢●1.2一

PART

02Deepseek

模型家族最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)服務(wù)熱線:400-700-9383

專項(xiàng)定制·

月度專題·市場(chǎng)地位證明·

專精特新申報(bào)·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃→DeepSeek-V2

模型性能進(jìn)一步優(yōu)化從低成本的DeepSeek-V2,到超低價(jià)格的DeepSeek-V3,再到引起世界廣泛關(guān)注的DeepSeek-R1,DeepSeek

的成功主要依賴于DeepSeek

自身深厚的技術(shù)積累和持續(xù)的技術(shù)創(chuàng)新突破。DeepSeek-V2

采用的是MoE

架構(gòu),全參數(shù)量為236B,

激活參數(shù)量是21B。

其采用了兩大創(chuàng)新技術(shù):DeepSeekMoE

架構(gòu)和多頭潛在注意力(MLA),

使得DeepSeek-V2

的訓(xùn)練成本大為降低并且提升推理速度。MLA

通過將Key-Value

緩存壓縮為潛在向量來提高推理效率,從而提高吞吐量。DeepSeek

MoE架構(gòu)允許通過稀疏計(jì)算進(jìn)行有效的推理。相比DeepSeek

LLM67B(Dense),

DeepSeek-V2的性能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV

緩存,最大生成吞吐量提高到5.76倍。DeepSeek-

V2性能LLaMA38BO

LLaMAMistral

7BLLaMA133BLLaMA213B0

20

40ActivatedO

LLaMA165B234B---

LLaMA1

Family---

LLaMA2

Family---LLaMA3

Family---Mixtral

Family---Command

RFamily

---

Qwen1.5

Family6080100Parameters(Billions)DeepSeek-V2Mixtral

8x22B

LLaMA370BCommandR+DBRX

Qwen1.572BDeepSeek

67BQwen1.532B

Grok-1Mixtral8x7BKV

Cache

for

Generation(KB/Token)DeepSeek67BDeepSeek-V2

reducing

KV

cache

by

93.3%0100200300400Maximum

GenerationThroughput(Tokens/Sec)Training

Costs(K

GPU

Hours/T

Tokens)DeepSeek67BDeepSeek-v2050100

150576%of

maximum

throughput10000

20000

30000

40000

50000資

:DeepSeek、

www.chyxx.comDeepSeek67BDeepSeek-v2十0807570656055●2.1

DeepSeek-V2模

deepseekPerformance

(MMLU)saving

42.5%oftrainingcosts2002502

300智研咨詢LLaMA

270BCommand

R●2.2

DeepSeek-V3模型

deepseekDeepSeek-V3

模型性能大幅提升DeepSeek-V3是一個(gè)強(qiáng)大的專家混合(MoE)語言模型,具有671B

個(gè)總參數(shù),激活參數(shù)量為37B。相較歷史模型,DeepSeek-V3在推理速度上有了大幅提升。此外在目前大模型主流榜單中,DeepSeek-V3

在開源模型中位列榜首,與世界上最先進(jìn)的閉源

模型不分伯仲。DeepSeek-v3

能●

DeepSeek-V3

DeepSeek-V2的設(shè)計(jì),采用多頭潛在注意力(MLA)和DeepSeekMoE

架構(gòu)。●采用了無輔助損失的負(fù)載均衡策

略,最大限度地減少了由于鼓勵(lì)

負(fù)載平衡而引起的性能下降。●引入一個(gè)多token

預(yù)測(cè)(MTP)

標(biāo),證明它有利于模型的性能,

也可用于推理加速的推測(cè)解碼。資料來源:DeepSeek、

智研咨詢整理www.chyxx.comDeepSeek-V3模型訓(xùn)練成本大幅降低根

據(jù)DeepSeek

團(tuán)隊(duì)在論文中強(qiáng)調(diào),通過優(yōu)化算法、框架和硬件的協(xié)同設(shè)計(jì)實(shí)現(xiàn)的。在預(yù)訓(xùn)練階段,每萬億個(gè)token

上訓(xùn)練DeepSeek-V3只需要180

KH800GPU小時(shí),也就是說,在其擁有2048個(gè)H800GPU

的集群上只需要3.7天。因此,公司的預(yù)訓(xùn)練

階段在不到兩個(gè)月的時(shí)間內(nèi)完成,花費(fèi)了2664K

GPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)展的119K

GPU小時(shí)和后訓(xùn)練的5K

GPU小時(shí),

DeepSeek-V3

完整訓(xùn)練僅花費(fèi)278.8萬GPU

小時(shí)。假設(shè)H800GPU

的租賃價(jià)格為每小時(shí)2美元,則代表著其總訓(xùn)練成本僅為557.6萬美元。相比同等規(guī)模的模型(如GPT-4、GPT-40、

Llama3.1),

訓(xùn)練成本大幅降低。但DeepSeek

團(tuán)隊(duì)還特意強(qiáng)調(diào),上述成本僅包括DeepSeek-V3的官方訓(xùn)練,不包括與架構(gòu)、

算法或數(shù)據(jù)的先前研究和消融實(shí)驗(yàn)相關(guān)的成本。DeepSeek-V3的訓(xùn)練成本(假設(shè)H800的租賃價(jià)格為2美元/GPU小時(shí))訓(xùn)練成本預(yù)訓(xùn)練上下文擴(kuò)展后訓(xùn)練總計(jì)H800GPU小時(shí)(小時(shí))2664K119K5K2788K美元$5.328M$0.238M$0.01M$5.576MDeep

Seek-V3節(jié)省訓(xùn)練成本的方法All

To

ALL通信內(nèi)核IB+NVLink低精度FP8

訓(xùn)練Dual

PipeDeepSeek

MoE+MLA無張量并行TP多token

預(yù)測(cè)(MTP)帶寬限制PTX語言無需輔助損失的負(fù)載均衡針對(duì)性GPU優(yōu)化模型結(jié)構(gòu)Architecture模型訓(xùn)練方式Pre-Train●

2.2

DeepSeek-V3模型資料來源:

DeepSeek、智研咨詢整理www.chyxx.comdeepseek智研咨詢核心技術(shù)——無需輔助損失的負(fù)載均衡DeepSeek-V3采用了一種無需輔助損失的負(fù)載均衡策略,旨在最大限度地減少因負(fù)載均衡優(yōu)化而對(duì)模型性能造成的不利影響。MoE模型容易出現(xiàn)“專家負(fù)載不均衡”(有的專家忙,有的專家閑),傳統(tǒng)的解決方法是加一個(gè)輔助損失,但這可能會(huì)損害模

型性能。DeepSeekV3

引入了一種新方法,通過動(dòng)態(tài)調(diào)整每個(gè)專家的“偏置項(xiàng)”

,來平衡負(fù)載。這種方法不依賴輔助損失,減

少了對(duì)性能的負(fù)面影響。此外,為了防止在單個(gè)序列內(nèi)出現(xiàn)極端不平衡情況,也引入了一種補(bǔ)充的序列級(jí)平衡損失,但影響很

小。其中,平衡因子α是一個(gè)超參數(shù),對(duì)于

DeepSeek-

V3

被設(shè)置為極小的值;1(.)表示指示函數(shù);

T表示

序列中的令牌數(shù)量。序列級(jí)平衡損失鼓勵(lì)在每個(gè)序

列內(nèi)實(shí)現(xiàn)專家負(fù)載的平衡。具體而言,為每個(gè)專家引入一個(gè)偏置項(xiàng)

bi,并將其

添加到對(duì)應(yīng)的親和度得分Sit,以確定Top-K

路由。補(bǔ)充的序列級(jí)輔助損失:無需輔助損失的負(fù)載均衡:DeepSeek-V3模

deepseek資料來源:

DeepSeek、

智研咨詢整理

智研咨詢●

2.2●

2.2

DeepSeek-V3模

deepseek

詢核心技術(shù)——多token

預(yù)測(cè)

(MTP)傳統(tǒng)語言模型通常只預(yù)測(cè)下一個(gè)token,

而DeepSeek-V3

在訓(xùn)練中采用MTP

目標(biāo),在每個(gè)位置預(yù)測(cè)多個(gè)未來token。

這種方式增

加訓(xùn)練信號(hào)密度,提高數(shù)據(jù)效率,使模型更好規(guī)劃表示,準(zhǔn)確預(yù)測(cè)未來token。

具體通過多層次模塊預(yù)測(cè)多個(gè)附加token,

各模

塊共享嵌入層和輸出頭,保持預(yù)測(cè)因果鏈,提高推理生成速度,提升模型整體性能。MTP

實(shí)現(xiàn)的示意圖t?t?

t?

t?LMain

Cross-Entropy

LossMTP

Module1(Next2TokenPrediction)Output

HeadTransformerBlockLinear

ProjectionfconcatenationRMSNorm

RMSNormShared

Embedding

LayerTarget

Tokens

t?

t?

t?

tsCross-Entropy

LossMain

Model(Next

TokenPrediction)Output

HeadTransformer

Block×LEmbeddingLayerInput

Tokens

t?

t?

t?

t?t?

ts

t?

t?LMTP

Cross-EntropyLossMTP

Module

2(Next3TokenPrediction)Output

HeadTransformerBlockLinear

ProjectionfconcatenationRMSNorm

RMSNormShared

EmbeddingLayert?t?t?

t?t?

t?

t?

t?資料來源:

DeepSeek、

智研咨詢整理

www.chyxx.comLMTP核心技術(shù)——FP8

混合精度訓(xùn)練通常的大模型訓(xùn)練會(huì)采用BF16或FP32/TF32

精度作為數(shù)據(jù)計(jì)算和存儲(chǔ)的格式,來確保較高的訓(xùn)練精度。相比之下,

FP8占

的數(shù)據(jù)位寬僅為FP32的1/4,FP16的1/2,可以提升計(jì)算速度,降低對(duì)存儲(chǔ)的消耗。微軟2023年的論文《FP8-LM:Training

FP8Large

Language

Models》就提出了一種用于LLM

訓(xùn)練的極度優(yōu)化的FP8混合精度框架。其核心思想是計(jì)算、儲(chǔ)存和通信(包括

正向和反向傳播)全部使用低精度FP8,

從而大大降低系統(tǒng)工作負(fù)載。然而,使用FP8

格式訓(xùn)練LLM

存在數(shù)據(jù)下溢出或上溢出等

挑戰(zhàn)以及FP8

數(shù)據(jù)格式較低精度所導(dǎo)致訓(xùn)練失敗等問題。DeepSeek

團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3

時(shí),采用的是混合精度框架,大部分密集計(jì)算操作都以FP8

格式進(jìn)行,而少數(shù)關(guān)鍵操作則策

略性地保留其原始數(shù)據(jù)格式,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。通過使用FP8格

,DeepSeek

能夠在有限的計(jì)算資源下,實(shí)現(xiàn)更

高的計(jì)算效率。例如,在處理大規(guī)模數(shù)據(jù)集時(shí),F(xiàn)P8

格式可以顯著減少顯存的占用,從而提高模型的訓(xùn)練速度。DeepSeek-

V3

混合精度框架示意圖To

FP8WgradWeight

GradientFP32ToBF16Optimizer

StatesOutputGradientBF16DeepSeek-V3模型

deepseek資料來源:

DeepSeek、

智研咨詢整理

wwww.智研咨詢②FP32InputGradientMasterWeight∑FP32InputBF16●2.2WeightOutputTo

BF16To

BF16To

FP32DgradFpropTo

FP8To

FP8To

FP8To

FP8FP32●2.2

DeepSeek-V3模型

deepseek

智研咨詢核心技術(shù)——Dual

Pipe算法在應(yīng)用分布式并行策略時(shí),無論是數(shù)據(jù)并行策略下的梯度聚合步驟,還是模型并行下各模型組件之間的通信,都會(huì)帶來大量的

跨設(shè)備數(shù)據(jù)傳輸需求。若不同階段的計(jì)算耗時(shí)差別較大,則會(huì)出現(xiàn)計(jì)算設(shè)備的空閑,即為“氣泡

(bubble)”。

為解決這一

問題,流水線并行(pipeline

parallel,PP)策略應(yīng)運(yùn)而生。其通過將一個(gè)較大數(shù)據(jù)批次分解為多個(gè)微批次(micro

batch),

使得每次計(jì)算的總耗時(shí)減少,從而減少了計(jì)算設(shè)備所處于的計(jì)算和等待兩種狀態(tài)在時(shí)間軸上的顆粒度,進(jìn)而使得每個(gè)bubble被縮小。在這一背景下,DeepSeek

團(tuán)隊(duì)在傳統(tǒng)PP

策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual

Pipe技術(shù)。與傳統(tǒng)PP

策略相比,

Dual

Pipe技術(shù)最明顯的革新在于其有效地融合了前向和后向計(jì)算加速通信。此外,DeepSeek

團(tuán)隊(duì)還通過調(diào)節(jié)GPU

中流式多處理器(SM)

的調(diào)度來實(shí)現(xiàn)對(duì)其在計(jì)算和通信之間進(jìn)行精細(xì)化分配,進(jìn)而進(jìn)一步加速了通信過程。Dual

Pipe算

圖Device

0Device

1

Device

2

Device

3

Device

4

Device

5

Device

6

Device

7Time081923456678899560718293456787989506172839456787989051627384956789890415263748596789893253647586978993546576879899445566778899MLP(B)▲MLP(W)▲MLP(F)△ATTN(B)▲ATTN(W)▲ATTN(F)△DISPATCH(F)△DISPATCH(B)▲COMBINE(F)△PPCOMBINE(B)▲Forward

Backward

Backward

for

input

Backward

for

weightsOverlappedforward&BackwardDualPipe8

個(gè)

PP

rank和

20個(gè)micro-batch的

DualPipe

調(diào)

示例資料來源:

DeepSeek、

智研咨詢整理

www.chyxx.com△

Forward

chunk▲Backward

chunkComputationCommunicationTimeChunk拆分CategoryBenchmark

(Metric)Claude-3.5-Sonnet-1022GPT-4o

0513DeepSeekV3OpenAl

ol-miniOpenAl

o1-1217DeepSeek

R1EnglishArchitectureMoEMoE#Activated

Params-37B-37B#Total

Params671B671BMMLU

(Pass@1)88.387.288.585.291.890.8MMLU-Redux

(EM)88.98889.186.792.9MMLU-Pro

(EM)7872.675.980.384DROP(3-shot

F1)88.383.791.683.990.292.2IF-Eval

(PromptStrict)86.584.386.184.883.3GPQA-Diamond

(Pass@1)6549.959.16075.771.5SimpleQA(Correct)28.438.224.974730.1FRAMES

(Acc.)72.580.573.376.9-82.5AlpacaEval2.0(LC-winrate)5251.17057.8-87.6CodeArenaHard

(GPT-4-1106)85.280.485.592-92.3LiveCodeBench(Pass@1-COT)33.834.2-53.863.465.9MathCodeforces

(Percentile)20.323.658.793.496.696.3Codeforces(Rating)7177591134182020612029SWEVerified

(Resolved)50.838.84241.648.949.2Aider-Polyglot

(Acc.)45.31649.632.961.753.3AIME

2024

(Pass@1)169.339.263.679.279.8MATH-500(Pass@1)78.374.690.29096.497.3CNMO

2024

(Pass@1)13.110.843.267.678.8ChineseCLUEWSC(EM)85.487.990.989.992.8C-Eval(EM)76.77686.568.991.8C-SimpleQA

(Correct)55.458.76840.3-63.7DeepSeek-R1

于DeepSeek-V3

訓(xùn)練優(yōu)化得到,增強(qiáng)了復(fù)雜邏輯推理能力,全參數(shù)量是671B,激活參數(shù)37B

。在數(shù)學(xué)、代碼、

自然語言推理等任務(wù)上,性能比肩OpenAl

ol正式版,并且開源模型權(quán)重,引發(fā)了全球的廣泛關(guān)注。DeepSeek-

R1評(píng)估結(jié)果●2.3DeepSeek-R1模型

DeepSeek-R1

性能對(duì)標(biāo)OpenAl資料來源:DeepSeek、

智研咨詢整理

o1正式版在大語言模型(LLM)

的微調(diào)過程中,強(qiáng)化學(xué)習(xí)

(RL)扮演著至關(guān)重要的角色。傳統(tǒng)的近端策略優(yōu)化

(PPO)

算法雖然被廣泛應(yīng)用于LLM的微調(diào),但其在處理大規(guī)模模型時(shí)面臨著巨大的計(jì)算和存儲(chǔ)負(fù)擔(dān)。PPO算法需要維護(hù)一個(gè)與策略模型大小相當(dāng)?shù)膬r(jià)

值網(wǎng)絡(luò)來估計(jì)優(yōu)勢(shì)函數(shù),這在大模型場(chǎng)景下會(huì)導(dǎo)致顯著的內(nèi)存占用和計(jì)算代價(jià)。此外,PPO

算法在更新策略時(shí)可能會(huì)導(dǎo)致策略分布發(fā)生劇烈變化,從而影響訓(xùn)練的穩(wěn)定性。為了解決這些問題,

DeepSeek

提出了一種新的強(qiáng)化學(xué)習(xí)算法——組相對(duì)策略優(yōu)化

(GRPO),旨在減少對(duì)價(jià)值網(wǎng)絡(luò)的依賴,同時(shí)保持策略更新的穩(wěn)定性和高效性。GRPO方法的優(yōu)勢(shì)在于:(1)減少計(jì)算負(fù)擔(dān):通過避免維護(hù)一個(gè)與策略模型大小

相當(dāng)?shù)膬r(jià)值網(wǎng)絡(luò),

GRPO顯著降低了訓(xùn)練過程中的內(nèi)存占

用和計(jì)算代價(jià)。(2)提高訓(xùn)練穩(wěn)定性:GRPO

通過組內(nèi)比較來估計(jì)優(yōu)勢(shì)

函數(shù),減少了策略更新的方差,從而確保了更穩(wěn)定的學(xué)習(xí)

。(3)增強(qiáng)策略更新的可控性:GRPO

引入了KL

散度約束,

防止策略更新過于劇烈,從而保持了策略分布的穩(wěn)定性。資

DeepSeek、智

理www.chyxx.comPPOReference

ModelRewardKL田-

rqPolicyModel0ModelValueModelVGAEATrainedModelsGRPOKLReferenceFrozenModelsqPolicyModelO?Oz·0GModel

RewardModelrrzTGGroupComputationA?A?A?DeepSeek-R1具備以下亮點(diǎn):(1)純強(qiáng)化學(xué)習(xí)訓(xùn)練:基于DeepSeek-V3

應(yīng)用大規(guī)模強(qiáng)化學(xué)習(xí),直接將RL

應(yīng)用于基礎(chǔ)模型而不依賴監(jiān)督微調(diào)(SFT)

步驟,這種方法允許模型探索解決復(fù)雜問題的思維鏈(CoT),由此開發(fā)出DeepSeek-R1-Zero

。DeepSeek-R1-Zero純強(qiáng)化學(xué)習(xí)訓(xùn)練得到的LLM,

并且展示了自我驗(yàn)證、反思和生成長(zhǎng)CoTs

等功能,標(biāo)志研究界的一個(gè)重要里程碑。核心技術(shù)——純強(qiáng)化學(xué)習(xí)訓(xùn)練deepseekDeepSeek-R1模型作為初始是第一個(gè)算法結(jié)構(gòu)對(duì)比●

2.3DeepSeek-R1

OpenAI-01-121710096.3

96.694.390.687.485.279.879.275.772.671.563.662.158.749.2

48.941.642.039.236.8200AIME2024Codeforces

GPQA

Diamond

MATH-500MMLU

SWE-bench

Verified(Pass@1)(Percentile)

(Pass@1)(Pass@1)(Pass@1)(Resolved)核心技術(shù)——冷啟動(dòng)數(shù)據(jù)&多階段訓(xùn)練策略(2)冷啟動(dòng)數(shù)據(jù)&多階段訓(xùn)練策略:

DeepSeek-R1是為解決

DeepSeek-R1-Zero

存在的問題并進(jìn)一步提升推理性能而開發(fā)的模

型,它在訓(xùn)練過程中融入了冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練策略。冷啟動(dòng)數(shù)據(jù):收集少量高質(zhì)量長(zhǎng)鏈推理數(shù)據(jù),通過SFT

初始化模型,提升可讀性和性能。多階段訓(xùn)練:第一階段RL

專注于數(shù)學(xué)、編程等明確答案的任務(wù)。第二階段結(jié)合拒絕采樣生成SFT

數(shù)據(jù),增強(qiáng)通用能力(寫作、

問答等)。最終RL對(duì)齊人類偏好(如無害性、有用性)。DeepSeek-R1在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)

與OpenAl-01

相當(dāng)?shù)男阅芩?。?/p>

Codeforces

MMLU

準(zhǔn)

測(cè)

試中與

OpenAl-01-1217

得分相近,尤其是在

AIME2024

、MATH-500

、Swe-Bench等基準(zhǔn)測(cè)試中,DeepSeek-R1

還稍微勝

出。資料來源:

DeepSeek、智研咨詢整理www.chyxx.com●2.3

DeepSeek-R1模

型DeepSeek-R1

的基準(zhǔn)性能deepseekDeepSeek-R1-32B

OpenAI-01-mini

DeepSeek-V3Accuracy/Percentile

(%)智研咨詢97.3

96.490.891.890.090.260.059.88.5406080GPT-4o-0513AIME2024pass@19.3AIME2024cons@6413.4MATH-500pass@174.6GPQADiamondpass@149.9LiveCodeBench

CodeForcespass@1

rating32.9

759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32B44.060.090.654.541.91316.0DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7B28.955.552.783.383.992.833.849.116.937.6954.01189.0DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205.0DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633.0核心技術(shù)——模型能力蒸餾遷移(3)模型能力蒸餾遷移:

DeepSeek

R1的推理能力可以通過蒸餾技術(shù)遷移到更小的模型中,并且小模型的基準(zhǔn)測(cè)試取得很優(yōu)

秀的表現(xiàn)。在DeepSeekR1蒸餾出的6個(gè)小模型中,在保持模型參數(shù)量?jī)H為o1-mini

同量級(jí)的前提下,其知識(shí)理解、代碼生成等

核心能力實(shí)現(xiàn)全面反超。通過對(duì)標(biāo)OpenAl-o1-mini

的效果上不難看出DeepSeek

在模型輕量化領(lǐng)域的突破性創(chuàng)新,同時(shí)也為開

源社區(qū)提供了兼具高性能與低部署成本的新型解決方案。DeepSeek-R1

蒸餾小模型性能資料來源:

DeepSeek、

智研咨詢整理

www.deepseekDeepSeek-R1模型●2.3一

PART

03Deepseek

技術(shù)創(chuàng)新最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)服務(wù)熱線:400-700-9383

·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三(

1

)

家(Experts):模型中的每個(gè)專家都是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),專門處理輸入數(shù)據(jù)的特定

子集或特定任務(wù)。例如,在自然語言處理任務(wù)中,

一個(gè)專家可能專注于處理與語言語法相關(guān)的內(nèi)容,

而另一個(gè)專家可能專注于語義理解。(2)門控網(wǎng)絡(luò)(Gating

Network):

門控網(wǎng)絡(luò)的作用是決定每個(gè)輸入樣本應(yīng)該由哪個(gè)專家或哪

些專家來處理。它根據(jù)輸入樣本的特征計(jì)算出每

個(gè)專家的權(quán)重或重要性,然后根據(jù)這些權(quán)重將輸

入樣本分配給相應(yīng)的專家。門控網(wǎng)絡(luò)通常是一個(gè)

簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),其輸出經(jīng)過softmax

激活函數(shù)

處理,以確保所有專家的權(quán)重之和為1。MoE

架構(gòu)引入多個(gè)獨(dú)立的專家模型MoE,

稱Mixture

of

Experts,即混合專家模型,是一種用于提高深度學(xué)習(xí)模型性能和效率的架構(gòu)。其核心思想是通過引入多

個(gè)獨(dú)立的專家模型(Experts),

每個(gè)輸入數(shù)據(jù)只選擇和激活其中的一部分專家模型來進(jìn)行處理,從而減少計(jì)算量,提高訓(xùn)練和

推理速度。

MoE

的概念在1991年就已提出,訓(xùn)練不容易收斂是其在大模型領(lǐng)域應(yīng)用的主要障礙。y?口

y?□Add+NormalizeFFN2

FFN3p=0.8p

=

0.65RouterAdd+NormalizeSelf-AttentionPositionalembeddingx2LParametersyAdd+NormalizeSwitching

FFN

LayerAdd+NormalizeSelf-Attentionx●3.1

DeepSeek

MoE模型技術(shù)

deepseekMoE

模型的主要組成部分包括:資料來源:智研咨詢整理

www.chyxx.comMoE模

結(jié)

構(gòu)FFN4

FN1Positional

embedding界Routerx1

口FFN3FFN1FFN2FFN4MoreMoE

模型的架構(gòu)設(shè)計(jì)使得它可以很容易地?cái)U(kuò)展到更多的專家和更大的模型規(guī)模。

通過增加專家的數(shù)量,模型可以覆蓋更

廣泛的數(shù)據(jù)特征和任務(wù)類型,從而在不增加計(jì)算復(fù)雜度的情況下,提升模型的

表達(dá)能力和泛化能力。這種可擴(kuò)展性為處理大規(guī)模、復(fù)雜的數(shù)據(jù)集提供了有效的解決方案,例如在處理多模態(tài)數(shù)據(jù) (包含文本、圖像、語音等多種類型的數(shù)

據(jù)

)

時(shí)

,MoE模型可以通過設(shè)置不同

的專家來專門處理不同模態(tài)的數(shù)據(jù),實(shí)現(xiàn)更高效的多模態(tài)融合。資料來源:智研咨詢整理

www.c與傳統(tǒng)的密集模型相比,MoE模型在處

理每個(gè)輸入樣本時(shí),只有相關(guān)的專家

會(huì)被激活,而不是整個(gè)模型的所有參

數(shù)都被使用。這意味著MoE模型可以在

保持較高性能的同時(shí),顯著減少計(jì)算

資源的消耗,特別是在模型規(guī)模較大

時(shí),這種優(yōu)勢(shì)更為明顯。例如,對(duì)于

一個(gè)具有數(shù)十億參數(shù)的大型語言模型,采用MoE架構(gòu)可以在不增加太多計(jì)算成

本的情況下,通過增加專家的數(shù)量來

進(jìn)一步提升模型的性能。通過將多個(gè)專家的預(yù)測(cè)結(jié)果進(jìn)行整合,MoE模型可以在不同的數(shù)據(jù)子集或任務(wù)方面發(fā)揮每個(gè)專家的優(yōu)勢(shì),從而提高整體模型的性能。例如,在圖像分類任務(wù)中,一個(gè)專家可能擅長(zhǎng)識(shí)別動(dòng)物圖片,而另一個(gè)專家可能擅長(zhǎng)識(shí)別車輛圖片,通過門控網(wǎng)絡(luò)的合理分配,MoE模型可

以更準(zhǔn)確地對(duì)不同類型的圖片進(jìn)行分類。MoE

架構(gòu)可顯著提高訓(xùn)練效率●

3.1DeepSeekMoE模型技術(shù)智研咨詢DeepSeek

MoE在傳統(tǒng)MoE

模型架構(gòu)上進(jìn)行了改進(jìn)DeepSeekMoE從

統(tǒng)MoE模

構(gòu)

礎(chǔ)

,

進(jìn)

進(jìn)

(

1

)

細(xì)

統(tǒng)MoE

型,

DeepSeekMoE

將每個(gè)MoE

層細(xì)分為更多的細(xì)粒度專家,每個(gè)專家負(fù)責(zé)處理更具體的任務(wù)。例如,在一個(gè)典型的DeepSeekMoE模型中,每個(gè)MoE

層包含256個(gè)專家,每個(gè)token

會(huì)激活其中的8個(gè)專家。這種細(xì)粒度的分割方式使得每個(gè)專家能夠?qū)W⒂谔囟?/p>

類型的輸入數(shù)據(jù),從而提高模型的靈活性和表達(dá)能力。

(2)共享專家隔離:傳統(tǒng)的MoE模型中,所有專家都是獨(dú)立的,每個(gè)專

家都需要獨(dú)立處理輸入數(shù)據(jù)。DeepSeekMoE

引入了共享專家的概念,把激活專家區(qū)分為共享專家和路由專家時(shí),共享專家和路

由專家在數(shù)據(jù)處理流程上有顯著的區(qū)別。對(duì)于共享專家,輸入數(shù)據(jù)無需經(jīng)過路由模塊的計(jì)算,所有數(shù)據(jù)都會(huì)直接通過共享專家

進(jìn)行處理。相反,對(duì)于路由專家,輸入數(shù)據(jù)會(huì)先經(jīng)過路由模塊,該模塊根據(jù)輸入數(shù)據(jù)的特征選擇最合適的專家進(jìn)行計(jì)算。在這

種架構(gòu)中,路由模塊通過計(jì)算輸入數(shù)據(jù)與各個(gè)專家的匹配概率,選擇概率最高的專家進(jìn)行處理。最終,將路由專家和共享專家

的計(jì)算結(jié)果相加,形成MoE

模塊的最終輸出。通過這種方式,模型能夠在處理不同輸入數(shù)據(jù)時(shí),既能捕捉到輸入數(shù)據(jù)的共性,

也能關(guān)注到輸入數(shù)據(jù)的差異性。這種設(shè)計(jì)能夠提高模型的泛化能力和適應(yīng)性。DeepSeekMoE與

統(tǒng)MoE

區(qū)

型MoE

對(duì)

比模型細(xì)粒度專家分離共享專家數(shù)路由專家數(shù)激活專家數(shù)Mixtral8*7B否否082Hunyuan-Large否是1161Qwen1.5-MoE-

A2.7B是是4604DeepSeek-V3是是12568RoutedExpertshared

ExperOutput

Hidden

OO

Output

Hidden澤3

4lk

=4Input

Hidden●

3.1DeepSeek

MoE模型技術(shù)(a)ConventionalTop-2Routing(b)+Fine-grainedExpertSegmentation(c)+SharedExpertIsolation(DeepSeekMoE)資料來源:智研咨詢整理

www.chyxx.comRouterInput

Hidden

OO堅(jiān)M

2N智研咨詢2

Nlk

=2RouterO0Input

HiddenOutput

Hidden2-1

2NdHlk

=3OORouter1多頭潛在注意力MLA

進(jìn)一步減少KV

緩存的大小在標(biāo)準(zhǔn)的Transformer

模型中,多頭注意力

(MHA)機(jī)制通過并行計(jì)算多個(gè)注意力頭來捕捉輸入序列中的不同特征。每個(gè)注意

力頭都有自己的查詢(Q)、鍵

(K)和值(V)

矩陣。對(duì)于序列中的每一個(gè)token,

都需要計(jì)算各自的QKV,進(jìn)而計(jì)算注意力。

在推理過程中,當(dāng)前大模型所采用的token

by

token遞歸生成方式,上文token

的KV

計(jì)算不會(huì)受到后續(xù)生成token

的影響,因此

可以緩存下來,避免重復(fù)計(jì)算,提高推理效率,這就是KVcache的由來。也就是說,當(dāng)生成第個(gè)token時(shí),可以利用之前事先算

好的上文個(gè)token

的KV值。同樣地,位置token

的KV值計(jì)算出來后也將保存在KV

cache中。目前大模型對(duì)于注意力機(jī)制做的一些改進(jìn),包括MQA、GQA

都是為了想方設(shè)法減少KV

Cache。DeepSeek提出的MLA的出發(fā)點(diǎn)也是如此。減少KV

Cache就可以實(shí)現(xiàn)在更少的設(shè)備上推理更長(zhǎng)的Context,或者在相同的Context

長(zhǎng)度下讓推理的batch

size更

大,從而實(shí)現(xiàn)更快的推理速度或者更大的吞吐總量。最終目的都是為了實(shí)現(xiàn)更低的推理成本。ValueCompressedProjectionKeyQueryMultiQueryGroupQueryMulti

HeadMultiHeadLatentAttention(MQA)Attention(GQA)Attention(MHA)

Attention(MLA)2

MHA-

GQA

MQA1●3.2多頭潛在注意力MLA

技術(shù)MHA、MQA、GQA與

MLA48

16GQA

groupsdeepseek資料來源:智研咨詢整理

www.chyxx.comTimeper

sample

(s)智

詢32

64多頭潛在注意力MLA

實(shí)現(xiàn)了更低的推理成本MQA

與GQA

的辦法是通過共享K、V的注意力頭,降低KV

的數(shù)據(jù)維度,但會(huì)犧牲模型性能。MLA

則是通過對(duì)注意力機(jī)制中的K、V

進(jìn)行低秩聯(lián)合壓縮,減少推理時(shí)的KV

緩存;同時(shí)對(duì)Q

進(jìn)行低秩壓縮,減少訓(xùn)練期間的激活內(nèi)存使用。MLA

架構(gòu)還結(jié)合了旋轉(zhuǎn)位

置嵌入(RoPE),有效處理了長(zhǎng)序列中的位置依賴問題。RoPE

通過旋轉(zhuǎn)操作將位置信息嵌入到K和Q中,使得模型能夠更好地

捕捉長(zhǎng)距離依賴關(guān)系。盡管MLA

通過低秩壓縮減少了K、V緩存和激活內(nèi)存,但它仍然能夠保持與標(biāo)準(zhǔn)多頭注意力(MHA)相

當(dāng)

的性能。在推理過程中,MLA

只需要緩存壓縮后的鍵和值,這顯著減少了內(nèi)存占用,使得模型能夠處理更長(zhǎng)的上下文長(zhǎng)度。

OcachedDuring

InferenceOutput

Hiddenu:OOOO…OOO0Multi-Head

Attention{19;ab(

{[k{,;kf]}(concatenatefG9S

Q?fapplyRoPEOO:00Latent

c

LatentctOInput

Hiddenh.OO0O…-O00OMulti-Head

Attention(num

head=nh,dim

head=dn)qu=[qS:qkal

ku=[kS;kilConcatenate

Concatenateconcotenatek口

{k3

匠applyRoPE[aE1:qE2;…;qim,]=q{E

Rda"h

kEQ&;q&;…;q&mJ=qRER%LDS;v{z;…;vim,J=vfeRCAnhkE;ki2…;kimJ=kfeReADhwDQ∈Rdxd

wDKV∈RdInput

h?ERd●3.2多頭潛在注意力MLA

技術(shù)outputurERdw0∈Rdxdn[oaiO2;;0cmJ=O;E

R4資料來源:DeepSeek、

智研咨詢整理

www.chyxx.comRoPE(weRe

RdAnde)RoPE(WKR|

ewUV∈Rdhnh×dewUK∈Rdhnh×de{3MLA架

構(gòu)wUQ∈Rdhnh×d智

詢Latentc{eRLatentCYERRd×d)→

DeepSeek

V3與R1

模型采用MIT

協(xié)議開源即代碼層面開源,可以調(diào)用與進(jìn)行二次開發(fā)。開源免費(fèi)調(diào)用有助于先行占據(jù)市場(chǎng)份額,成為規(guī)則制定者,率先拓展生態(tài)粘

性。如,谷歌將安卓開源,獲得了全球80%的移動(dòng)手機(jī)端市場(chǎng)份額,同時(shí)也覆蓋電視、汽車等使用場(chǎng)景。DeepSeek

V3與R1

模型實(shí)現(xiàn)了開源,采用MIT協(xié)議。

DeepSeek

開源模型完全免費(fèi),開發(fā)者可以利用DeepSeek

開源模型開發(fā)衍生模型、產(chǎn)品應(yīng)用以及生成內(nèi)容。這產(chǎn)生多方面影響:①

對(duì)大模型發(fā)展:這提升了世界對(duì)中國(guó)Al大模型能力的認(rèn)知,

一定程度打破了OpenA1

與Anthropic

等高級(jí)閉源模型的封閉生態(tài)。

DeepSeek

R1在多個(gè)測(cè)試指標(biāo)中對(duì)標(biāo)OpenAl

o1,通過模型開源,也將大模型平均水平提升至類OpenAl

o1等級(jí)。②

對(duì)下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場(chǎng)景,即使用者針對(duì)自身需求蒸餾,或用自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場(chǎng)

景;此外,模型訓(xùn)推成本降低,將帶來使用場(chǎng)景的普及,帶動(dòng)AIGC、

端側(cè)等供給和需求。PermissivePublic

DomainMIT/X11BSD-NewApache2.0WeakCopyleftLGPL2.1LGPL2.1+LGPL3orLGPL3+MPL1.1Strong

CopyleftGPL2GPL2+GPL3or

GPL3+NetworkProtectiveAGPL3用戶通過獲取DeepSeek

開源項(xiàng)目中相關(guān)信息進(jìn)行部署/再訓(xùn)練使用,應(yīng)首先確保滿足開源項(xiàng)目對(duì)應(yīng)許可協(xié)議。目前,DeepSeek系列開源Al項(xiàng)目,除DeepSeek-R1代碼和模型皆遵循MIT

可協(xié)議外,其他DeepSeek

系列開源AI項(xiàng)目皆為代碼遵循MIT

協(xié)

,

DEEPSEEKLICENSE

AGREEMENT(Version1.0)。因此,用戶在部署/再訓(xùn)練DeepSeek

大模型開源項(xiàng)目時(shí),應(yīng)首先

遵循對(duì)應(yīng)開源許可協(xié)議的相關(guān)規(guī)定,避免開源合規(guī)風(fēng)險(xiǎn)?!?/p>

3

.

3

型資料來源:智研咨詢整理

www.chyxx.com開源許可協(xié)議標(biāo)準(zhǔn)智研咨詢一

PART

04Deepseek

商業(yè)模式最全面的產(chǎn)業(yè)分析●可預(yù)見的行業(yè)趨勢(shì)服務(wù)熱線:400-700-9383

·可研報(bào)告·

商業(yè)計(jì)劃書·產(chǎn)業(yè)規(guī)劃三企業(yè)接入DeepSeek大模型的收費(fèi)方式主要分為兩種模式,具體如下:(1)API

接口:按Token

計(jì)費(fèi)模式。標(biāo)準(zhǔn)時(shí)段下,deepseek-chat(DeepSeek-V3)API

服務(wù)定價(jià)為百萬tokens

輸入價(jià)格0.5元(緩存命中)/2元(緩存未命中)。

deepseek-reasoner(DeepSeek-R1)API服務(wù)定價(jià)為百萬tokens輸入價(jià)格1元(緩存命中)/4元(緩存未命中)。2月26日,deepseek

平臺(tái)推出錯(cuò)峰優(yōu)惠活動(dòng),在00:30-8:30時(shí)間段,DeepSeekV3降至原價(jià)的50%,DeepSeek-R1

降至原價(jià)的25%。資料來源:智研咨詢整理

w模型時(shí)段百萬tokens輸入價(jià)格(緩存命中)百萬tokens輸入價(jià)格(緩存未命中

)百萬tokens輸出價(jià)格輸出價(jià)格deepseek-chat

(DeepSeek-V3)標(biāo)準(zhǔn)時(shí)段0.5元2元8元優(yōu)惠時(shí)端

(00:30-8:30)0.25元1元4元

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論