




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1DeepSeek技術(shù)溯源及前沿探索主講人:
朱強(qiáng)浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能浙江大學(xué)DS系列專(zhuān)題研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心
四
、DeepSeek
五
、新一代智能體
三
、ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能 一
、語(yǔ)言模型
二
、Transformer研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline2Language
Modeling對(duì)于任意的詞序列,
計(jì)算出這個(gè)序列是一句話的概率我們每天都和語(yǔ)言模型打交道:I
saw
a
cat
in
my
dreamI
saw
a
cacar
I
saw
a
cat
I
saw
a
cat
onthe
chairI
saw
a
cat
running
after
a
dog浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
語(yǔ)言模型:
終極目標(biāo)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心31000編碼:
讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言01000001
0
0
1
0
只有一個(gè)1,
其余均為0 One-hot
Encoding有什么缺點(diǎn)嗎?One-hot
Encoding浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人She
語(yǔ)言模型:
基本任務(wù)is教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心mommy4Word
Embedding用一個(gè)低維的詞向量表示一個(gè)詞能使距離相近的向量對(duì)應(yīng)的物體有相近的含義游泳
飛翔鯨魚(yú)
0.990.990.050.1
…海豚
0.990.050.93
0.09…鸚鵡
0.020.010.990.98…企鵝
0.980.020.940.3…
20維的向量用one-hot和word
embedding的方法分別可以表示多少單詞?浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
編碼:
讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心5 tezgüino
motor
oil
tortillas
wine(1)(2)
(3)
(4)1111100001011110兩行內(nèi)容十分相近兩個(gè)單詞含義相近浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能Word
Embedding結(jié)合句子語(yǔ)境我們可以猜測(cè):tezgüino是一種由玉米制作的酒精類(lèi)飲料A
bottle
of
tezgüino
is
on
the
table.Everyone
likestezgüino.Tezgüino
makesyou
drunk.We
maketezgüino
out
of
corn.(1)A
bottle
of
_______
is
on
the
table.(2)
Everyone
likes
_______.(3)_______
makes
you
drunk.(4)We
make
_______
out
of
corn.研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
編碼:
讓計(jì)算機(jī)理解人類(lèi)語(yǔ)言教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心6
Transformer
(2017
after)Before:
P(小)·
P
(貓|小)
·
P
(抓|小貓)
·
P
(老|小貓抓)
·
P
(鼠|小
貓抓老)2-gram:
P(小)·
P
(貓|小)
·
P
(抓|貓)
·
P
(老|抓)
·
P
(鼠|老)3-gram:
P(小)·
P
(貓|小)
·
P
(抓|小貓)
·
P
(老|貓抓)
·
P
(鼠|抓老)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能
語(yǔ)言模型:
技術(shù)演化
基于統(tǒng)計(jì)的N-gram(1970
after
)
基于神經(jīng)網(wǎng)絡(luò)的LSTM/GRU
(2000
after)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心7 Encoder-Decoder常見(jiàn)的深度學(xué)習(xí)模型框架,可用于解決Seq2Seq
問(wèn)題I
am
pretty
smart!隱Encoder
空
間Decoder我
很
聰
明
!Representation可以根據(jù)任務(wù)選擇不同的編碼器和解碼器(
LSTM/GRU/Transformer
)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心8
二
、Transformer
三
、ChatGPT
四
、DeepSeek 一
、語(yǔ)言模型
五
、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline92019OCT2021SEP2023MAR2023FEB2020MAY2022NOV2024MAR2022MAROT5LLaMAGPT-3FLANGPT-4LLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3GPT-3.5
InstrutGPTChatGPTTransformer:
理論架構(gòu)創(chuàng)新?
自注意力機(jī)制:
支持并行計(jì)算/全局上下文的理解能力?多頭注意力:
從多個(gè)角度捕捉復(fù)雜的語(yǔ)義關(guān)系?前饋網(wǎng)絡(luò)/位置編碼/層歸一化:
解決了傳統(tǒng)模型的諸多局限性10https://blog.csdn.net/cf2SudS8x8F0v/article/details/1456951462025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT2019FEB2018JUN
大型語(yǔ)言模型簡(jiǎn)史GPTBERTGPT-2教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心TransformerDeepSeek-R12024DEC2017JUN2024APRAttention
IsAllYou
NeedNIPS
2017,
引用量15萬(wàn)+引入全新注意力機(jī)制,
改變了深度學(xué)習(xí)模型的處理方式DecoderEncoder浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 Transformer
:大模型的技術(shù)基座教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心11中國(guó)南北
飲食文化存在差異,
豆花有南甜北咸之分
。南方人一般喜歡
吃甜豆花She
is
eating
a
green
apple.The
animal
didn't
crossthe
street
because
itwastootired/wide Transformer
:
(自)
注意力機(jī)制在理解語(yǔ)言任務(wù)時(shí),Attention機(jī)制本質(zhì)上是捕捉單詞間的關(guān)系浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人32教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心112 Transformer
:
(自)
注意力機(jī)制在理解圖像任務(wù)時(shí),Attention機(jī)制本質(zhì)上是一種圖像特征抽取Image
Sketch
Gradient
13浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心場(chǎng)景:
你在圖書(shū)館想找一本關(guān)于“機(jī)器學(xué)習(xí)基礎(chǔ)
”的書(shū)https://newsletter.theaiedge.io/p/the-multi-head-attention-mechanismKey:書(shū)的索引編號(hào)(高效的書(shū)籍定位)Query:描述要找的
書(shū)(精準(zhǔn)的需求描述)Value:
內(nèi)容的抽?。?/p>
由目標(biāo)任務(wù)驅(qū)動(dòng))浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 Transformer
:訓(xùn)練機(jī)制教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心14GPT-3FLANLLaMAChatGPTGPT-4GPT-3.5
InstrutGPTLLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3預(yù)訓(xùn)練時(shí)代:
大力出奇跡(
“暴力美學(xué)
”)?BERT:
Bidirectional
Encoder
RepresentationsTransformers?GPT:
Generative
Pertained
Transformer?
自監(jiān)督算法:
MLM/NTP/MAE解決海量數(shù)據(jù)標(biāo)注問(wèn)題2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2019OCT2020MAY2021SEP2023MAR2022MAR2024MAR2022NOV2023FEBOT5研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT
大型語(yǔ)言模型簡(jiǎn)史2019FEB2018JUNGPT-2BERTGPT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR15GPT
Jun2018Generation浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人The
LLM
Era–
ParadigmShift
in
MachineLearningBERT
Oct2018Representatio教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心16T5–
2019BART–
2019mT5–
2021…GenerationGPT–
2018GPT-2
–
2019GPT-3
–
2020GPT-Neo
–
2021GPT-3.5(ChatGPT)–2022LLaMA
–2023GPT-4
–
2023…浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人RepresentatioThe
LLM
Era–
ParadigmShift
in
MachineLearningBERT–
2018DistilBERT
–2019RoBERTa
–2019ALBERT–
2019ELECTRA
–2020教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心20n20…17原話:
一輛列車(chē)
緩慢
行駛
在
崎嶇
的山路上移除單詞:
一輛列車(chē)
行駛
在
崎嶇
的山路上預(yù)測(cè)填空:
一輛列車(chē)緩慢行駛在
崎嶇
的山路上Masked
Langauge
Modeling(MLM)
模型會(huì)不斷地在句子中‘挖去
’一個(gè)單詞,根據(jù)剩下單詞的上下文來(lái)填空,
即預(yù)測(cè)最合適的‘填空詞
’出現(xiàn)的概率,這一過(guò)程為‘
自監(jiān)督學(xué)習(xí)
’浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
自監(jiān)督學(xué)習(xí)(語(yǔ)言)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心18MaskedAutoEncoders(MAE)
通過(guò)隨機(jī)遮蓋部分輸入數(shù)據(jù)(如圖像)并重建缺失內(nèi)容,讓模型從上下文中學(xué)到圖像的深層特征,
常用于計(jì)算機(jī)視覺(jué)任務(wù)。https://arxiv.org/pdf/2111.06377重建圖像浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
自監(jiān)督學(xué)習(xí)(圖像)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心遮蓋圖像19Self-supervisedPromptFine-tuneTransformer
訓(xùn)練transformer
的通用之力數(shù)據(jù)是燃料
、模型是引擎
、算力是加速器引入Self-attention單詞之間關(guān)聯(lián)關(guān)系seq2seq序列學(xué)習(xí)
循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言大模型
LLMn數(shù)據(jù):訓(xùn)練中使用了45TB數(shù)據(jù)
、近
1萬(wàn)億個(gè)單詞(約1351萬(wàn)本牛津詞典所包含單詞數(shù)量)
以及數(shù)十億行源代碼。n模型:包含了1750億參數(shù),將這些參數(shù)全部打印在A4紙張上,一張一張疊加后
,疊加高度將超過(guò)上海中心大廈632米高度。n算力:
ChatGPT的訓(xùn)練門(mén)檻是1萬(wàn)張英偉達(dá)V100芯片
、約10億人民幣。n大數(shù)據(jù)
、大模型
、大算力下以“共生則關(guān)聯(lián)
”原則實(shí)現(xiàn)了統(tǒng)計(jì)關(guān)聯(lián)關(guān)系的挖掘
。人類(lèi)反饋強(qiáng)化學(xué)習(xí)(InstructGPT
)CodeX(
CoT,
120億參數(shù))浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人Word2vec詞向量l
MCP神經(jīng)元l
Perceptronl
DNN神經(jīng)網(wǎng)絡(luò)早期前向神經(jīng)網(wǎng)絡(luò)RNNLSTMll教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心ChatGPT20大語(yǔ)言模型(LLM)Large
Language
Model大模型Large
Model多模態(tài)大模型(
LMM)Large
Multi
modal
Model科學(xué)計(jì)算模型
Science
ModelBERT系列GPT系列3.5/4DDPMSAMAlpha系列PanguLMGoogle
Bard文心一言GPT-4oDeepseek-v3DALLE
·3
inChatGPTMidjourneySora交互式DemoGPT-o1/o3Deepseek-R1AlphaStar魔獸爭(zhēng)霸藥物分子預(yù)測(cè)AlphaGo
圍棋氣象大模型浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能產(chǎn)品研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
大模型脈絡(luò)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心AlphaFold
蛋白質(zhì)預(yù)測(cè)技術(shù)機(jī)理21OpenAI最新15頁(yè)報(bào)告:
DeepSeek縮小中美AI差距ASurveyon
Large
LanguageModels
with
some
Insightson
their
Capabilities
andLimitations浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
群雄(中美)
爭(zhēng)霸教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心22DeepSeek以一己之力改變了開(kāi)源和閉源的力量對(duì)比:
從6~12個(gè)月的代差縮短到1~3個(gè)月國(guó)際企業(yè)微軟投資OpenAI的GPT-4.0系列閉源自研開(kāi)源小模型Phi-3
Mini開(kāi)源亞馬遜自研Titan系列閉源投資Anthropic的Claude
3.5系列閉源谷歌Gemini系列閉源Gemma系列開(kāi)源METALlama3系列開(kāi)源Mistral
AIMistral-Large閉源Mistral-Medium開(kāi)源中國(guó)企業(yè)阿里通義千問(wèn)2.5系列基礎(chǔ)模型
、行業(yè)模型開(kāi)源Qwen0.5b-110b系列開(kāi)源模型開(kāi)源華為盤(pán)古系列閉源騰訊混元基礎(chǔ)模型
、行業(yè)模型閉源混元開(kāi)源模型開(kāi)源百度文心一言4.0模型閉源浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
閉源vs
開(kāi)源教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心23GPT-3做了以下優(yōu)化:1.增加到96層,每層有96個(gè)注意頭;2.單詞嵌入大小從1600
增加到12888;3.
上下文窗
口大小從GPT-2
的1024增加到
2048,
并采用交替密度
和局部帶狀稀疏注意模式
。GPT-2做了以下改進(jìn):1.增
加到48層
,
使
用1600維向量進(jìn)行詞嵌入;2.
將層歸一化移動(dòng)到每個(gè)子塊的輸入
,并在最終
的自注意塊后增加一層歸
一化;3.修改初始化的殘差
層權(quán)
重
,
縮
放
為
原
來(lái)的1/N,其中,
N是殘差層的
數(shù)量;4.特征向量維數(shù)從768擴(kuò)展到1600
,
詞表擴(kuò)大到
50257
。模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6月1.17億約5GBGPT-22019年2月15億40GGPT-32020年5月1750億45TBChatGPT2022年11月千億級(jí)?百T級(jí)?ChatGPT基于GPT-3.5:1.ChatGPT使用來(lái)自人
類(lèi)反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)
練;2.通過(guò)近端策略?xún)?yōu)化算法進(jìn)行微調(diào)
,為信任域策
略?xún)?yōu)化算法帶來(lái)成本效益
。DeepSeek通過(guò)大幅提升模型訓(xùn)練
、推理效率,
緩解(???)了算力需求?浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GP-2(201S)
摩爾定律(大模型時(shí)代)12層,每層12個(gè)注意頭GP-3
2020)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心24
三
、ChatGPT
四
、DeepSeek
二
、Transformer 一
、語(yǔ)言模型
五
、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline252020MAY2023MAR2023FEB2021SEP2022NOV2019OCT2022MAR2024MARChatGPTGPT-4GPT-3.5
InstrutGPTLLaMAGPT-3OT5FLANLLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3GPT-3:
語(yǔ)言模型的轉(zhuǎn)折點(diǎn)?
大語(yǔ)言模型:
1750億參數(shù)?涌現(xiàn)能力
:
隨著模型規(guī)模增大而出現(xiàn)的新能力?生成/創(chuàng)造:
Artificial
Intelligence(人工
=>
藝術(shù))2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT2018JUN
大型語(yǔ)言模型簡(jiǎn)史2019FEBGPTBERTGPT-2教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR26GPT-3LLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3GPT-4LLaMAFLANGPT-3.5
InstrutGPTChatGPTChatGPT:
人工智能的IPHONE時(shí)刻2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2023FEB2019OCT2024MAR2021SEP2020MAY2022MAR2022NOV2023MAROT5研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GPTBERTGPT-2
大型語(yǔ)言模型簡(jiǎn)史2018OCT2019FEB2018JUN教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR27GPT-3SeriesGPT-3.5SeriesInstruct-davinci-betaText-davinci-001Code-davinci-001Code-cushman-001
Large-scale
language
model
pretrainingTrainingon
code
GPT-3
Initial
Instruction
tuningDavinciCodex
InitialInstructGPT
Initial
LM+codetrainingthen
instructiontuningCode-davinci-002RLHF
Text-davinci-002
RLHFText-davinci-003
ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人 OpenAI技術(shù)白皮書(shū)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心28RLHFInstructiontuningTrainingon
code
Large-scale
language
model
pretrainingRLHF
Text-davinci-002GPT-3
InitialC
dDavinciI
i
i
lText-davinci-003
ChatGPT初代
GPT-3
展示了三個(gè)重要能力(來(lái)自于大規(guī)模的預(yù)訓(xùn)練)l
語(yǔ)言生成:來(lái)自語(yǔ)言建模的訓(xùn)練目標(biāo)(說(shuō)人話)l
世界知識(shí):來(lái)自
3000億單詞的訓(xùn)練語(yǔ)料庫(kù)(百曉生)l
上下文學(xué)習(xí):
上下文學(xué)習(xí)可以泛化,仍然難以溯源(觸類(lèi)旁通)初代
GPT-3表面看起來(lái)很弱,但有非常強(qiáng)的潛力,展示出極為強(qiáng)大的“涌現(xiàn)
”能力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
GPT3
InitialGPT-3.5Series教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心29
Large-scale
language
GPT-3
Initial
Davincimodel
pretrainingInstructiontuningTrainingon
codeCode-davinci-001Instruct-davinci-betaRLHFCodex
InitialRLHF
Text-davinci-0022020
-
2021
年,
OpenAI
投入了大量的精力通過(guò)代碼訓(xùn)練和指令微調(diào)來(lái)
增強(qiáng)
GPT-3
。使用思維鏈進(jìn)行復(fù)雜推理的能力很可能是代碼訓(xùn)練的一個(gè)神奇副產(chǎn)物使用指令微調(diào)將
GPT-3.5
的分化到不同的技能樹(shù)(數(shù)學(xué)家/程序員/…)InstructGPT
InitialText-davinci-003
ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人GPT-3SeriesGPT-3.5Series Codex+
Instruct教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心30RLHFRLHF
Text-davinci-002
Large-scale
language
model
pretrainingTrainingon
code
GPT-3
Initial
Instruction
tuningDavinciCodex
InitialInstructGPT
InitialCode-davinci-001Instruct-davinci-beta
LM+codetrainingthen
instructiontuning1
)指令微調(diào)不會(huì)為模型注入新的能力(解鎖能力)2)
指令微調(diào)犧牲性能換取與人類(lèi)對(duì)齊(
“對(duì)齊稅
”)Code-davinci-002Text-davinci-003
ChatGPT浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能GPT-3SeriesGPT-3.5Series研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心
GPT3.531GPT-3SeriesGPT-3.5Series
Large-scale
language
model
pretrainingTrainingon
code
GPT-3
Initial
Instruction
tuningDavinciCodex
InitialInstructGPT
InitialuningF
Text-davinci-002Text-davinci-003
ChatGPT2022.11RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)的指令微調(diào))
觸發(fā)的能力:l
翔實(shí)的回應(yīng)l
公正的回應(yīng)l
拒絕不當(dāng)問(wèn)題l
拒絕其知識(shí)范圍之外的問(wèn)題RLHFRLHF浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
ChatGPT
(技術(shù)到產(chǎn)品)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心322023FEB2022NOV2024MAR2023MARGPT-3OT5LLaMAGPT-4FLANLLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3GPT-3.5
InstrutGPTChatGPT多模態(tài)模型:
連接文本
、圖像及其他?開(kāi)源:
Meta的LLaMA系列(普惠學(xué)術(shù)領(lǐng)域)?GPT-4v:
視覺(jué)遇見(jiàn)語(yǔ)言(跨模態(tài))?GPT-4o:
全模態(tài)前沿(交互能力)2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能2021SEP2019OCT2022MAR2020MAY研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018JUN
大型語(yǔ)言模型簡(jiǎn)史GPT-2BERTGPT2019FEB2018OCT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR332023.06
GPT-4可提供多模態(tài)能力
zero-shot及few-shot的能力
GPT-4邏輯推理能力的飛躍
GPT-4的安全性已經(jīng)大幅提升
更強(qiáng)的專(zhuān)屬能力(如編程)
處理其它語(yǔ)言的能力
處理更長(zhǎng)序列的能力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
GPT-4v
(聽(tīng)
、說(shuō)看)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心342024.06
多模態(tài)輸入輸出(交互能力)
響應(yīng)速度(接近人類(lèi)響應(yīng))
數(shù)學(xué)推理
、編程等能力提升
非英文文本性能大幅提升
視覺(jué)和音頻理解能力
成本優(yōu)勢(shì)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
GPT-4o(文科博士生)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心352024.09
推理能力大幅提升:
數(shù)學(xué)和編程能力爆表
更像人類(lèi)一樣思考:
全新安全訓(xùn)練方法
&
更強(qiáng)的“越獄
”抵抗力浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
GPT-o1(理科博士生)教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心36
三
、ChatGPT 一
、語(yǔ)言模型
四
、DeepSeek
二
、Transformer
五
、新一代智能體浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心Outline372019OCT2020MAY2024MAR2022NOV2023FEB2022MAR2023MAR2021SEPGPT-3OT5FLANGPT-3.5
InstrutGPTChatGPTLLaMALLaMA-3.1405B
OpenAI-o1GPT-4o
DeepSeek-V3OpenAI-o3GPT-4推理模型:
從「生成」
到「推理」
的重心轉(zhuǎn)變?OpenAI-o1/o3:
推理能力的一大飛躍?DeepSeek-V3/R1:
專(zhuān)家模型
、強(qiáng)化學(xué)習(xí),
開(kāi)源,
效率2025JAN浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人2018OCT
大型語(yǔ)言模型簡(jiǎn)史2019FEB2018JUNBERTGPT-2GPT教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心DeepSeek-R1Transformers2024DEC2017JUN2024APR38基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2的模型生成
推理SFT數(shù)據(jù)DeepSeek模型并非是顛覆性基礎(chǔ)理論創(chuàng)新(
Transformer-based)
,
其對(duì)算法
、模型和系統(tǒng)等進(jìn)
行的系統(tǒng)級(jí)協(xié)同工程創(chuàng)新,
打破了大語(yǔ)言模型以大算力
為核心的預(yù)期天花板,
為受限資源下探索通用人工智能
開(kāi)辟了新的道路
。強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))Step2:
DeepSeek-R1-ZeroStep3:
DeepSeek-R1Step4:
DeepSeek-R1-Distill階段1:有監(jiān)督微調(diào)
SFT基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)冷啟動(dòng)階段(
DeepSeek-R1-Zero生成少量推理數(shù)據(jù))Qwen2.5-14B
Qwen2.5-32BLlama3.3-70B-
Instruct推理數(shù)據(jù)(
60w樣本)SFT
(2
epochs)…DeepSeek-V3
Base(671B/37B激活)COTPrompting非推理數(shù)據(jù)(
20w樣本)DeepSeek-R1-
ZeroDeepSeek-R1-
Distill模型蒸餾(
Distillation)Llama3.1-
8B數(shù)據(jù)合并(
80w樣本)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人DeepSeek技術(shù)全景圖Step
1:
DeepSeek-V3
Base教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)DeepSeek-V3
SFT數(shù)據(jù)DeepSeek-V3
Base(671B/37B激活)階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)DeepSeek階段3:SFT(2epcohs)DeepSeek-R1Step
1:
DeepSeek-V3
BaseStep2:
DeepSeek-R1-Zero基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型動(dòng)態(tài)路由機(jī)制和專(zhuān)家共享機(jī)制DS-V3對(duì)標(biāo)GPT-4o(文科博士生):n混合專(zhuān)家模型:V3基座模型總共有6710億參數(shù),但是每次
token僅激活8個(gè)專(zhuān)家
、370億參數(shù)(
~5.5%)
。n極致的工程優(yōu)化:
多頭潛在注意力機(jī)制(MLA),使用FP8混合精
度,
Dual
Pipe算法提升訓(xùn)練效率,將訓(xùn)練效率優(yōu)化到極致
,顯存占用為其他模型的5%-13%
。Step4:
DeepSeek-R1-DistillStep3:
DeepSeek-R1浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心40Step2:
DeepSeek-R1-ZeroStep3:
DeepSeek-R1Step
1:
DeepSeek-V3
Base基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step4:
DeepSeek-R1-Distill賦予DeepSeek-V3最基礎(chǔ)的推理能力:R1-Zero使用DeepSeek-V3-Base作為基礎(chǔ)模型,直接使用
GRPO進(jìn)行強(qiáng)化學(xué)
習(xí)來(lái)提升模型的推理性能:n準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracyrewards)n格式獎(jiǎng)勵(lì)
(
Format
rewards
)SFTRLHF引入人類(lèi)偏好數(shù)據(jù)GRPO將知識(shí)抽象為獎(jiǎng)勵(lì)規(guī)則通過(guò)標(biāo)注將知識(shí)顯示化人工標(biāo)注獎(jiǎng)勵(lì)模型0
或
1獎(jiǎng)勵(lì)規(guī)則數(shù)據(jù)驅(qū)動(dòng)+知識(shí)引導(dǎo)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心
DeepSeek
41基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step3:
DeepSeek-R1Step2:
DeepSeek-R1-
ZeroStep
1:
DeepSeek-V3
BaseStep4:
DeepSeek-R1-DistillDeepSeek-V3Base(671B/37B激活)階段1:有監(jiān)督微調(diào)
SFT基于規(guī)則獎(jiǎng)勵(lì)的大規(guī)模強(qiáng)化學(xué)習(xí)+語(yǔ)言一致性獎(jiǎng)勵(lì)階段2:模型生成推理SFT數(shù)據(jù)DS-R1對(duì)標(biāo)OpenAI-o1(理科博士生):n階段1:
DeepSeek-R1-Zero生成少量推理數(shù)據(jù)+SFT=>為
V3植入初步推理能力(冷啟動(dòng))n階段2:根據(jù)規(guī)則獎(jiǎng)勵(lì)直接進(jìn)行強(qiáng)化學(xué)習(xí)(
GRPO)訓(xùn)練=>
提升推理能力(多輪迭代
,獲取大量推理數(shù)據(jù))n階段3:迭代生成推理/非推理樣本微調(diào)=>增強(qiáng)全場(chǎng)景能力n階段4:全場(chǎng)景強(qiáng)化學(xué)習(xí)=>人類(lèi)偏好對(duì)齊
(RLHF)強(qiáng)化學(xué)習(xí)GRPO(規(guī)則獎(jiǎng)勵(lì))推理數(shù)據(jù)(
60w樣本)Qwen2.5-14B
Qwen2.5-32BLlama3.3-70B-
InstructSFT
(2
epochs)非推理數(shù)據(jù)(
20w樣本)DeepSeek-V3
Base(671B/37B激活)COTPromptingLlama3.1-8B數(shù)據(jù)合并(
80w樣本)DeepSeek-R1-
ZeroDeepSeek-R1-
模型蒸餾Distill
(Distillation)浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人
DeepSeek技術(shù)揭秘教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心階段2:基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)DeepSeek-V3
SFT數(shù)據(jù)
DeepSeek
階段3:SFT(2epcohs)階段4:全場(chǎng)
景強(qiáng)化學(xué)習(xí)冷啟動(dòng)階段(
DeepSeek-R1-Zero生成少量推理數(shù)據(jù))DeepSeek-R142
DeepSeek技術(shù)揭秘Step
1:
DeepSeek-V3
BaseStep2:
DeepSeek-R1-
Zero
DeepSeek
基礎(chǔ)生成模型推理模型初試推理橫型大成R1蒸餾小模型Step4:
DeepSeek-R1-DistillDeepSeek-R1-Distill模型:(
1
)基于各個(gè)低參數(shù)量通用模型(千問(wèn)
、Llama等)(
2
)使用DeepSeek-R1同款數(shù)據(jù)微調(diào)(3)大幅提升低參數(shù)量模型性能知識(shí)蒸餾:?老師教學(xué)生:“解題思路”,不僅給答案(硬標(biāo)簽),還教“為什么”(軟標(biāo)簽)?模型瘦身
:大幅壓縮參數(shù)(如671億→7億參數(shù))
,手機(jī)也能跑AI浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能Step3:
DeepSeek-R1研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心43教育客服服務(wù)(智能客服)醫(yī)療法律OA類(lèi)(
WIKI等)數(shù)據(jù)經(jīng)營(yíng)分析GPTAgent(基于Prompt的應(yīng)用,AutoGPT,AgentGPT等)訓(xùn)練數(shù)據(jù)
管理與生成大模型精調(diào)GPT4(公有云)LLMA(開(kāi)源)
Stable
Diffusion大模型應(yīng)用開(kāi)發(fā)框架(
Langchain
)精調(diào)pipeline DeepSeek帶來(lái)的全棧影響
運(yùn)營(yíng)工具(產(chǎn)品
、渠道)基礎(chǔ)架構(gòu)及
模型部署基礎(chǔ)模型應(yīng)用支持微調(diào)插件嵌入浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人工智能研究中心浙江大學(xué)人工智能教育教學(xué)研究中心浙江大學(xué)人垂直
應(yīng)用通用類(lèi)大模型應(yīng)用層大模型中間層基礎(chǔ)模型層教育教學(xué)研究中心浙江大學(xué)人工智能教育教學(xué)研究中心制造44
二
、Transformer
三
、ChatGPT
四
、DeepSeek 一
、語(yǔ)言模型
五
、新一代智能體浙江大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入解析國(guó)際金融理財(cái)師考試試題及答案
- 畜牧師職稱(chēng)考試高頻試題及答案解析
- 解析小語(yǔ)種證書(shū)考試重要性試題及答案
- 次級(jí)市場(chǎng)現(xiàn)狀銀行從業(yè)資格試題及答案
- 2025年銀行從業(yè)資格證職場(chǎng)發(fā)展試題及答案
- 環(huán)境適應(yīng)性對(duì)特許金融分析師考試成功的影響試題及答案
- 關(guān)鍵技能2025年特許金融分析師考試試題及答案
- 理財(cái)師考試中的案例分析成功要素試題及答案
- 備戰(zhàn)技巧網(wǎng)絡(luò)編輯師試題與答案
- 理財(cái)師學(xué)員必測(cè)試題及答案
- 智能汽車(chē)行業(yè)產(chǎn)業(yè)研究系列(三):智能汽車(chē)軟硬件產(chǎn)品齊發(fā)力CES展示汽車(chē)酷炫新亮點(diǎn)
- 人才盤(pán)點(diǎn)九宮格及人才梯隊(duì)盤(pán)點(diǎn)套表
- Unit+4+Adversity+and+courage+Reading+and+Thinking+A+Successful+Failure+課件-【知識(shí)精講精研】高中英語(yǔ)人教版(2019)選擇性必修第三冊(cè)
- 種植甜葉菊的效益分析
- 醫(yī)療設(shè)備供貨安裝調(diào)試驗(yàn)收售后等方案
- 卵巢癌根治術(shù)后護(hù)理查房
- 2019年度上海市小學(xué)生健康體檢表
- 臨床醫(yī)生教師如何上好一堂課課件
- 馬克思主義政治經(jīng)濟(jì)學(xué)概論
- 《雷雨》課件2022-2023學(xué)年人教版高中語(yǔ)文必修四
- 無(wú)人機(jī)導(dǎo)航與通信技術(shù)PPT完整全套教學(xué)課件
評(píng)論
0/150
提交評(píng)論