【浙江大學(xué)】DS系列專(zhuān)題:DeepSeek技術(shù)溯源及前沿探索_第1頁(yè)
【浙江大學(xué)】DS系列專(zhuān)題:DeepSeek技術(shù)溯源及前沿探索_第2頁(yè)
【浙江大學(xué)】DS系列專(zhuān)題:DeepSeek技術(shù)溯源及前沿探索_第3頁(yè)
【浙江大學(xué)】DS系列專(zhuān)題:DeepSeek技術(shù)溯源及前沿探索_第4頁(yè)
【浙江大學(xué)】DS系列專(zhuān)題:DeepSeek技術(shù)溯源及前沿探索_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1DeepSeek技術(shù)溯源及前沿探索主講人:

朱強(qiáng)浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能浙江大學(xué)DS系列專(zhuān)題研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心

、DeepSeek

、新一代智能體

、ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能 一

、語(yǔ)言模型

、Transformer研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline2Language

Modeling對(duì)于任意的詞序列,

計(jì)算出這個(gè)序列是一句話的概率我們每天都和語(yǔ)言模型打交道:I

saw

a

cat

in

my

dreamI

saw

a

cacar

I

saw

a

cat

I

saw

a

cat

onthe

chairI

saw

a

cat

running

after

a

dog浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

語(yǔ)言模型:

終極目標(biāo)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心31000編碼:

讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言01000001

0

0

1

0

只有一個(gè)1,

其余均為0 One-hot

Encoding有什么缺點(diǎn)嗎?One-hot

Encoding浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人She

語(yǔ)言模型:

基本任務(wù)is教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心mommy4Word

Embedding用一個(gè)低維的詞向量表示一個(gè)詞能使距離相近的向量對(duì)應(yīng)的物體有相近的含義游泳

飛翔鯨魚(yú)

0.990.990.050.1

…海豚

0.990.050.93

0.09…鸚鵡

0.020.010.990.98…企鵝

0.980.020.940.3…

20維的向量用one-hot和word

embedding的方法分別可以表示多少單詞?浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

編碼:

讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心5 tezgüino

motor

oil

tortillas

wine(1)(2)

(3)

(4)1111100001011110兩行內(nèi)容十分相近兩個(gè)單詞含義相近浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能Word

Embedding結(jié)合句子語(yǔ)境我們可以猜測(cè):tezgüino是一種由玉米制作的酒精類(lèi)飲料A

bottle

of

tezgüino

is

on

the

table.Everyone

likestezgüino.Tezgüino

makesyou

drunk.We

maketezgüino

out

of

corn.(1)A

bottle

of

_______

is

on

the

table.(2)

Everyone

likes

_______.(3)_______

makes

you

drunk.(4)We

make

_______

out

of

corn.研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

編碼:

讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心6

Transformer

(2017

after)Before:

P(小)·

P

(貓|小)

·

P

(抓|小貓)

·

P

(老|小貓抓)

·

P

(鼠|小

貓抓老)2-gram:

P(小)·

P

(貓|小)

·

P

(抓|貓)

·

P

(老|抓)

·

P

(鼠|老)3-gram:

P(小)·

P

(貓|小)

·

P

(抓|小貓)

·

P

(老|貓抓)

·

P

(鼠|抓老)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能

語(yǔ)言模型:

技術(shù)演化

基于統(tǒng)計(jì)的N-gram(1970

after

基于神經(jīng)網(wǎng)絡(luò)的LSTM/GRU

(2000

after)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心7 Encoder-Decoder常見(jiàn)的深度學(xué)習(xí)模型框架,可用于解決Seq2Seq

問(wèn)題I

am

pretty

smart!隱Encoder

間Decoder我

!Representation可以根據(jù)任務(wù)選擇不同的編碼器和解碼器(

LSTM/GRU/Transformer

)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心8

、Transformer

、ChatGPT

、DeepSeek 一

、語(yǔ)言模型

、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline92019OCT2021SEP2023MAR2023FEB2020MAY2022NOV2024MAR2022MAROT5LLaMAGPT-3FLANGPT-4LLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3.5

InstrutGPTChatGPTTransformer:

理論架構(gòu)創(chuàng)新?

自注意力機(jī)制:

支持并行計(jì)算/全局上下文的理解能力?多頭注意力:

從多個(gè)角度捕捉復(fù)雜的語(yǔ)義關(guān)系?前饋網(wǎng)絡(luò)/位置編碼/層歸一化:

解決了傳統(tǒng)模型的諸多局限性10https://blog.csdn.net/cf2SudS8x8F0v/article/details/1456951462025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT2019FEB2018JUN

大型語(yǔ)言模型簡(jiǎn)史GPTBERTGPT-2教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心TransformerDeepSeek-R12024DEC2017JUN2024APRAttention

IsAllYou

NeedNIPS

2017,

引用量15萬(wàn)+引入全新注意力機(jī)制,

改變了深度學(xué)習(xí)模型的處理方式DecoderEncoder浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 Transformer

:大模型的技術(shù)基座教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心11中國(guó)南北

飲食文化存在差異,

豆花有南甜北咸之分

。南方人一般喜歡

吃甜豆花She

is

eating

a

green

apple.The

animal

didn't

crossthe

street

because

itwastootired/wide Transformer

:

(自)

注意力機(jī)制在理解語(yǔ)言任務(wù)時(shí),Attention機(jī)制本質(zhì)上是捕捉單詞間的關(guān)系浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人32教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心112 Transformer

:

(自)

注意力機(jī)制在理解圖像任務(wù)時(shí),Attention機(jī)制本質(zhì)上是一種圖像特征抽取Image

Sketch

Gradient

13浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心場(chǎng)景:

你在圖書(shū)館想找一本關(guān)于“機(jī)器學(xué)習(xí)基礎(chǔ)

”的書(shū)https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanismKey:書(shū)的索引編號(hào)(高效的書(shū)籍定位)Query:描述要找的

書(shū)(精準(zhǔn)的需求描述)Value:

內(nèi)容的抽?。?/p>

由目標(biāo)任務(wù)驅(qū)動(dòng))浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 Transformer

:訓(xùn)練機(jī)制教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心14GPT-3FLANLLaMAChatGPTGPT-4GPT-3.5

InstrutGPTLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3預(yù)訓(xùn)練時(shí)代:

大力出奇跡(

“暴力美學(xué)

”)?BERT:

Bidirectional

Encoder

RepresentationsTransformers?GPT:

Generative

Pertained

Transformer?

自監(jiān)督算法:

MLM/NTP/MAE解決海量數(shù)據(jù)標(biāo)注問(wèn)題2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2019OCT2020MAY2021SEP2023MAR2022MAR2024MAR2022NOV2023FEBOT5研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT

大型語(yǔ)言模型簡(jiǎn)史2019FEB2018JUNGPT-2BERTGPT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR15GPT

Jun2018Generation浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人The

LLM

Era–

ParadigmShift

in

MachineLearningBERT

Oct2018Representatio教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心16T5–

2019BART–

2019mT5–

2021…GenerationGPT–

2018GPT-2

2019GPT-3

2020GPT-Neo

2021GPT-3.5(ChatGPT)–2022LLaMA

–2023GPT-4

2023…浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人RepresentatioThe

LLM

Era–

ParadigmShift

in

MachineLearningBERT–

2018DistilBERT

–2019RoBERTa

–2019ALBERT–

2019ELECTRA

–2020教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心20n20…17原話:

一輛列車(chē)

緩慢

行駛

崎嶇

的山路上移除單詞:

一輛列車(chē)

行駛

崎嶇

的山路上預(yù)測(cè)填空:

一輛列車(chē)緩慢行駛在

崎嶇

的山路上Masked

Langauge

Modeling(MLM)

模型會(huì)不斷地在句子中‘挖去

’一個(gè)單詞,根據(jù)剩下單詞的上下文來(lái)填空,

即預(yù)測(cè)最合適的‘填空詞

’出現(xiàn)的概率,這一過(guò)程為‘

自監(jiān)督學(xué)習(xí)

’浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

自監(jiān)督學(xué)習(xí)(語(yǔ)言)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心18MaskedAutoEncoders(MAE)

通過(guò)隨機(jī)遮蓋部分輸入數(shù)據(jù)(如圖像)并重建缺失內(nèi)容,讓模型從上下文中學(xué)到圖像的深層特征,

常用于計(jì)算機(jī)視覺(jué)任務(wù)。https://arxiv.org/pdf/2111.06377重建圖像浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

自監(jiān)督學(xué)習(xí)(圖像)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心遮蓋圖像19Self-supervisedPromptFine-tuneTransformer

訓(xùn)練transformer

的通用之力數(shù)據(jù)是燃料

、模型是引擎

、算力是加速器引入Self-attention單詞之間關(guān)聯(lián)關(guān)系seq2seq序列學(xué)習(xí)

循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言大模型

LLMn數(shù)據(jù):訓(xùn)練中使用了45TB數(shù)據(jù)

、近

1萬(wàn)億個(gè)單詞(約1351萬(wàn)本牛津詞典所包含單詞數(shù)量)

以及數(shù)十億行源代碼。n模型:包含了1750億參數(shù),將這些參數(shù)全部打印在A4紙張上,一張一張疊加后

,疊加高度將超過(guò)上海中心大廈632米高度。n算力:

ChatGPT的訓(xùn)練門(mén)檻是1萬(wàn)張英偉達(dá)V100芯片

、約10億人民幣。n大數(shù)據(jù)

、大模型

、大算力下以“共生則關(guān)聯(lián)

”原則實(shí)現(xiàn)了統(tǒng)計(jì)關(guān)聯(lián)關(guān)系的挖掘

。人類(lèi)反饋強(qiáng)化學(xué)習(xí)(InstructGPT

)CodeX(

CoT,

120億參數(shù))浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人Word2vec詞向量l

MCP神經(jīng)元l

Perceptronl

DNN神經(jīng)網(wǎng)絡(luò)早期前向神經(jīng)網(wǎng)絡(luò)RNNLSTMll教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心ChatGPT20大語(yǔ)言模型(LLM)Large

Language

Model大模型Large

Model多模態(tài)大模型(

LMM)Large

Multi

modal

Model科學(xué)計(jì)算模型

Science

ModelBERT系列GPT系列3.5/4DDPMSAMAlpha系列PanguLMGoogle

Bard文心一言GPT-4oDeepseek-v3DALLE

·3

inChatGPTMidjourneySora交互式DemoGPT-o1/o3Deepseek-R1AlphaStar魔獸爭(zhēng)霸藥物分子預(yù)測(cè)AlphaGo

圍棋氣象大模型浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能產(chǎn)品研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

大模型脈絡(luò)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心AlphaFold

蛋白質(zhì)預(yù)測(cè)技術(shù)機(jī)理21OpenAI最新15頁(yè)報(bào)告:

DeepSeek縮小中美AI差距ASurveyon

Large

LanguageModels

with

some

Insightson

their

Capabilities

andLimitations浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

群雄(中美)

爭(zhēng)霸教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心22DeepSeek以一己之力改變了開(kāi)源和閉源的力量對(duì)比:

從6~12個(gè)月的代差縮短到1~3個(gè)月國(guó)際企業(yè)微軟投資OpenAI的GPT-4.0系列閉源自研開(kāi)源小模型Phi-3

Mini開(kāi)源亞馬遜自研Titan系列閉源投資Anthropic的Claude

3.5系列閉源谷歌Gemini系列閉源Gemma系列開(kāi)源METALlama3系列開(kāi)源Mistral

AIMistral-Large閉源Mistral-Medium開(kāi)源中國(guó)企業(yè)阿里通義千問(wèn)2.5系列基礎(chǔ)模型

、行業(yè)模型開(kāi)源Qwen0.5b-110b系列開(kāi)源模型開(kāi)源華為盤(pán)古系列閉源騰訊混元基礎(chǔ)模型

、行業(yè)模型閉源混元開(kāi)源模型開(kāi)源百度文心一言4.0模型閉源浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

閉源vs

開(kāi)源教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心23GPT-3做了以下優(yōu)化:1.增加到96層,每層有96個(gè)注意頭;2.單詞嵌入大小從1600

增加到12888;3.

上下文窗

口大小從GPT-2

的1024增加到

2048,

并采用交替密度

和局部帶狀稀疏注意模式

。GPT-2做了以下改進(jìn):1.增

加到48層

,

使

用1600維向量進(jìn)行詞嵌入;2.

將層歸一化移動(dòng)到每個(gè)子塊的輸入

,并在最終

的自注意塊后增加一層歸

一化;3.修改初始化的殘差

層權(quán)

來(lái)的1/N,其中,

N是殘差層的

數(shù)量;4.特征向量維數(shù)從768擴(kuò)展到1600

詞表擴(kuò)大到

50257

。模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6月1.17億約5GBGPT-22019年2月15億40GGPT-32020年5月1750億45TBChatGPT2022年11月千億級(jí)?百T級(jí)?ChatGPT基于GPT-3.5:1.ChatGPT使用來(lái)自人

類(lèi)反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)

練;2.通過(guò)近端策略?xún)?yōu)化算法進(jìn)行微調(diào)

,為信任域策

略?xún)?yōu)化算法帶來(lái)成本效益

。DeepSeek通過(guò)大幅提升模型訓(xùn)練

、推理效率,

緩解(???)了算力需求?浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GP-2(201S)

摩爾定律(大模型時(shí)代)12層,每層12個(gè)注意頭GP-3

2020)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心24

、ChatGPT

、DeepSeek

、Transformer 一

、語(yǔ)言模型

、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline252020MAY2023MAR2023FEB2021SEP2022NOV2019OCT2022MAR2024MARChatGPTGPT-4GPT-3.5

InstrutGPTLLaMAGPT-3OT5FLANLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3:

語(yǔ)言模型的轉(zhuǎn)折點(diǎn)?

大語(yǔ)言模型:

1750億參數(shù)?涌現(xiàn)能力

隨著模型規(guī)模增大而出現(xiàn)的新能力?生成/創(chuàng)造:

Artificial

Intelligence(人工

=>

藝術(shù))2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT2018JUN

大型語(yǔ)言模型簡(jiǎn)史2019FEBGPTBERTGPT-2教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR26GPT-3LLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-4LLaMAFLANGPT-3.5

InstrutGPTChatGPTChatGPT:

人工智能的IPHONE時(shí)刻2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2023FEB2019OCT2024MAR2021SEP2020MAY2022MAR2022NOV2023MAROT5研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GPTBERTGPT-2

大型語(yǔ)言模型簡(jiǎn)史2018OCT2019FEB2018JUN教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR27GPT-3SeriesGPT-3.5SeriesInstruct-davinci-betaText-davinci-001Code-davinci-001Code-cushman-001

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

Initial

LM+codetrainingthen

instructiontuningCode-davinci-002RLHF

Text-davinci-002

RLHFText-davinci-003

ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 OpenAI技術(shù)白皮書(shū)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心28RLHFInstructiontuningTrainingon

code

Large-scale

language

model

pretrainingRLHF

Text-davinci-002GPT-3

InitialC

dDavinciI

i

i

lText-davinci-003

ChatGPT初代

GPT-3

展示了三個(gè)重要能力(來(lái)自于大規(guī)模的預(yù)訓(xùn)練)l

語(yǔ)言生成:來(lái)自語(yǔ)言建模的訓(xùn)練目標(biāo)(說(shuō)人話)l

世界知識(shí):來(lái)自

3000億單詞的訓(xùn)練語(yǔ)料庫(kù)(百曉生)l

上下文學(xué)習(xí):

上下文學(xué)習(xí)可以泛化,仍然難以溯源(觸類(lèi)旁通)初代

GPT-3表面看起來(lái)很弱,但有非常強(qiáng)的潛力,展示出極為強(qiáng)大的“涌現(xiàn)

”能力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

GPT3

InitialGPT-3.5Series教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心29

Large-scale

language

GPT-3

Initial

Davincimodel

pretrainingInstructiontuningTrainingon

codeCode-davinci-001Instruct-davinci-betaRLHFCodex

InitialRLHF

Text-davinci-0022020

-

2021

年,

OpenAI

投入了大量的精力通過(guò)代碼訓(xùn)練和指令微調(diào)來(lái)

增強(qiáng)

GPT-3

。使用思維鏈進(jìn)行復(fù)雜推理的能力很可能是代碼訓(xùn)練的一個(gè)神奇副產(chǎn)物使用指令微調(diào)將

GPT-3.5

的分化到不同的技能樹(shù)(數(shù)學(xué)家/程序員/…)InstructGPT

InitialText-davinci-003

ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GPT-3SeriesGPT-3.5Series Codex+

Instruct教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心30RLHFRLHF

Text-davinci-002

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

InitialCode-davinci-001Instruct-davinci-beta

LM+codetrainingthen

instructiontuning1

)指令微調(diào)不會(huì)為模型注入新的能力(解鎖能力)2)

指令微調(diào)犧牲性能換取與人類(lèi)對(duì)齊(

“對(duì)齊稅

”)Code-davinci-002Text-davinci-003

ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能GPT-3SeriesGPT-3.5Series研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心

GPT3.531GPT-3SeriesGPT-3.5Series

Large-scale

language

model

pretrainingTrainingon

code

GPT-3

Initial

Instruction

tuningDavinciCodex

InitialInstructGPT

InitialuningF

Text-davinci-002Text-davinci-003

ChatGPT2022.11RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))

觸發(fā)的能力:l

翔實(shí)的回應(yīng)l

公正的回應(yīng)l

拒絕不當(dāng)問(wèn)題l

拒絕其知識(shí)范圍之外的問(wèn)題RLHFRLHF浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

ChatGPT

(技術(shù)到產(chǎn)品)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心322023FEB2022NOV2024MAR2023MARGPT-3OT5LLaMAGPT-4FLANLLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-3.5

InstrutGPTChatGPT多模態(tài)模型:

連接文本

、圖像及其他?開(kāi)源:

Meta的LLaMA系列(普惠學(xué)術(shù)領(lǐng)域)?GPT-4v:

視覺(jué)遇見(jiàn)語(yǔ)言(跨模態(tài))?GPT-4o:

全模態(tài)前沿(交互能力)2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2021SEP2019OCT2022MAR2020MAY研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018JUN

大型語(yǔ)言模型簡(jiǎn)史GPT-2BERTGPT2019FEB2018OCT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR332023.06

GPT-4可提供多模態(tài)能力

zero-shot及few-shot的能力

GPT-4邏輯推理能力的飛躍

GPT-4的安全性已經(jīng)大幅提升

更強(qiáng)的專(zhuān)屬能力(如編程)

處理其它語(yǔ)言的能力

處理更長(zhǎng)序列的能力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

GPT-4v

(聽(tīng)

、說(shuō)看)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心342024.06

多模態(tài)輸入輸出(交互能力)

響應(yīng)速度(接近人類(lèi)響應(yīng))

數(shù)學(xué)推理

、編程等能力提升

非英文文本性能大幅提升

視覺(jué)和音頻理解能力

成本優(yōu)勢(shì)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

GPT-4o(文科博士生)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心352024.09

推理能力大幅提升:

數(shù)學(xué)和編程能力爆表

更像人類(lèi)一樣思考:

全新安全訓(xùn)練方法

&

更強(qiáng)的“越獄

”抵抗力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

GPT-o1(理科博士生)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心36

、ChatGPT 一

、語(yǔ)言模型

、DeepSeek

、Transformer

、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline372019OCT2020MAY2024MAR2022NOV2023FEB2022MAR2023MAR2021SEPGPT-3OT5FLANGPT-3.5

InstrutGPTChatGPTLLaMALLaMA-3.1405B

OpenAI-o1GPT-4o

DeepSeek-V3OpenAI-o3GPT-4推理模型:

從「生成」

到「推理」

的重心轉(zhuǎn)變?OpenAI-o1/o3:

推理能力的一大飛躍?DeepSeek-V3/R1:

專(zhuān)家模型

、強(qiáng)化學(xué)習(xí),

開(kāi)源,

效率2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT

大型語(yǔ)言模型簡(jiǎn)史2019FEB2018JUNBERTGPT-2GPT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR38基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2的模型生成

推理SFT數(shù)據(jù)DeepSeek模型并非是顛覆性基礎(chǔ)理論創(chuàng)新(

Transformer-based)

,

其對(duì)算法

、模型和系統(tǒng)等進(jìn)

行的系統(tǒng)級(jí)協(xié)同工程創(chuàng)新,

打破了大語(yǔ)言模型以大算力

為核心的預(yù)期天花板,

為受限資源下探索通用人工智能

開(kāi)辟了新的道路

。強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))Step2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step4:

DeepSeek-R1-Distill階段1:有監(jiān)督微調(diào)

SFT基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)冷啟動(dòng)階段(

DeepSeek-R1-Zero生成少量推理數(shù)據(jù))Qwen2.5-14B

Qwen2.5-32BLlama3.3-70B-

Instruct推理數(shù)據(jù)(

60w樣本)SFT

(2

epochs)…DeepSeek-V3

Base(671B/37B激活)COTPrompting非推理數(shù)據(jù)(

20w樣本)DeepSeek-R1-

ZeroDeepSeek-R1-

Distill模型蒸餾(

Distillation)Llama3.1-

8B數(shù)據(jù)合并(

80w樣本)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人DeepSeek技術(shù)全景圖Step

1:

DeepSeek-V3

Base教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)DeepSeek-V3

SFT數(shù)據(jù)DeepSeek-V3

Base(671B/37B激活)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek階段3:SFT(2epcohs)DeepSeek-R1Step

1:

DeepSeek-V3

BaseStep2:

DeepSeek-R1-Zero基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型動(dòng)態(tài)路由機(jī)制和專(zhuān)家共享機(jī)制DS-V3對(duì)標(biāo)GPT-4o(文科博士生):n混合專(zhuān)家模型:V3基座模型總共有6710億參數(shù),但是每次

token僅激活8個(gè)專(zhuān)家

、370億參數(shù)(

~5.5%)

。n極致的工程優(yōu)化:

多頭潛在注意力機(jī)制(MLA),使用FP8混合精

度,

Dual

Pipe算法提升訓(xùn)練效率,將訓(xùn)練效率優(yōu)化到極致

,顯存占用為其他模型的5%-13%

。Step4:

DeepSeek-R1-DistillStep3:

DeepSeek-R1浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心40Step2:

DeepSeek-R1-ZeroStep3:

DeepSeek-R1Step

1:

DeepSeek-V3

Base基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step4:

DeepSeek-R1-Distill賦予DeepSeek-V3最基礎(chǔ)的推理能力:R1-Zero使用DeepSeek-V3-Base作為基礎(chǔ)模型,直接使用

GRPO進(jìn)行強(qiáng)化學(xué)

習(xí)來(lái)提升模型的推理性能:n準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracyrewards)n格式獎(jiǎng)勵(lì)

Format

rewards

)SFTRLHF引入人類(lèi)偏好數(shù)據(jù)GRPO將知識(shí)抽象為獎(jiǎng)勵(lì)規(guī)則通過(guò)標(biāo)注將知識(shí)顯示化人工標(biāo)注獎(jiǎng)勵(lì)模型0

1獎(jiǎng)勵(lì)規(guī)則數(shù)據(jù)驅(qū)動(dòng)+知識(shí)引導(dǎo)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心

DeepSeek

41基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step3:

DeepSeek-R1Step2:

DeepSeek-R1-

ZeroStep

1:

DeepSeek-V3

BaseStep4:

DeepSeek-R1-DistillDeepSeek-V3Base(671B/37B激活)階段1:有監(jiān)督微調(diào)

SFT基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2:模型生成推理SFT數(shù)據(jù)DS-R1對(duì)標(biāo)OpenAI-o1(理科博士生):n階段1:

DeepSeek-R1-Zero生成少量推理數(shù)據(jù)+SFT=>為

V3植入初步推理能力(冷啟動(dòng))n階段2:根據(jù)規(guī)則獎(jiǎng)勵(lì)直接進(jìn)行強(qiáng)化學(xué)習(xí)(

GRPO)訓(xùn)練=>

提升推理能力(多輪迭代

,獲取大量推理數(shù)據(jù))n階段3:迭代生成推理/非推理樣本微調(diào)=>增強(qiáng)全場(chǎng)景能力n階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)=>人類(lèi)偏好對(duì)齊

(RLHF)強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))推理數(shù)據(jù)(

60w樣本)Qwen2.5-14B

Qwen2.5-32BLlama3.3-70B-

InstructSFT

(2

epochs)非推理數(shù)據(jù)(

20w樣本)DeepSeek-V3

Base(671B/37B激活)COTPromptingLlama3.1-8B數(shù)據(jù)合并(

80w樣本)DeepSeek-R1-

ZeroDeepSeek-R1-

模型蒸餾Distill

(Distillation)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人

DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)DeepSeek-V3

SFT數(shù)據(jù)

DeepSeek

階段3:SFT(2epcohs)階段4:全場(chǎng)

景強(qiáng)化學(xué)習(xí)冷啟動(dòng)階段(

DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-R142

DeepSeek技術(shù)揭秘Step

1:

DeepSeek-V3

BaseStep2:

DeepSeek-R1-

Zero

DeepSeek

基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step4:

DeepSeek-R1-DistillDeepSeek-R1-Distill模型:(

1

)基于各個(gè)低參數(shù)量通用模型(千問(wèn)

、Llama等)(

2

)使用DeepSeek-R1同款數(shù)據(jù)微調(diào)(3)大幅提升低參數(shù)量模型性能知識(shí)蒸餾:?老師教學(xué)生:“解題思路”,不僅給答案(硬標(biāo)簽),還教“為什么”(軟標(biāo)簽)?模型瘦身

:大幅壓縮參數(shù)(如671億→7億參數(shù))

,手機(jī)也能跑AI浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能Step3:

DeepSeek-R1研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心43教育客服服務(wù)(智能客服)醫(yī)療法律OA類(lèi)(

WIKI等)數(shù)據(jù)經(jīng)營(yíng)分析GPTAgent(基于Prompt的應(yīng)用,AutoGPT,AgentGPT等)訓(xùn)練數(shù)據(jù)

管理與生成大模型精調(diào)GPT4(公有云)LLMA(開(kāi)源)

Stable

Diffusion大模型應(yīng)用開(kāi)發(fā)框架(

Langchain

)精調(diào)pipeline DeepSeek帶來(lái)的全棧影響

運(yùn)營(yíng)工具(產(chǎn)品

、渠道)基礎(chǔ)架構(gòu)及

模型部署基礎(chǔ)模型應(yīng)用支持微調(diào)插件嵌入浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人垂直

應(yīng)用通用類(lèi)大模型應(yīng)用層大模型中間層基礎(chǔ)模型層教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心制造44

、Transformer

、ChatGPT

、DeepSeek 一

、語(yǔ)言模型

、新一代智能體浙江大

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論