




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
C??'NTENTSDeepSeeDeepSeeDeepSeeDeepSee*y?,PARTDeepSeek@??@????,什么是DeepSeek-
DeepSeek
公司:杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。-DeepSeek
大模型:DeepSeek
公司推出的一系列大模型的統(tǒng)稱(chēng)。DeepSeek
的背景知識(shí)DeepSeek
公司-成立時(shí)間:2023年7月;-
創(chuàng)始人:
梁文峰(
幻方量化的聯(lián)合創(chuàng)始人);-所在城市:浙江省杭州市拱墅區(qū);-公司口號(hào):探索未至之境;技術(shù)的研發(fā)和應(yīng)用;-公司業(yè)務(wù)方向:專(zhuān)注于通用人工智能
(AGI)-
“杭州六小龍”之一;-團(tuán)隊(duì)成員大多來(lái)自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國(guó)內(nèi)頂尖高校。DeepSeek
的背景知識(shí)梁文峰-
出生年份:1985年;-籍貫:廣東省湛江市吳川市覃巴鎮(zhèn)米歷嶺村;學(xué)歷背景:2002年,考入浙江大學(xué)電子工程系電子信息工程專(zhuān)業(yè);2007年,考上浙江大學(xué)信息與通信工程專(zhuān)業(yè)研究生;2010年,獲得碩士學(xué)位;工作背景:2008年,開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索量化交易;2015年,創(chuàng)立了幻方科技(杭州幻方科技有限公司);2019年,其資金管理規(guī)模突破百億元;2023年7月,幻方量化宣布成立大模型公司DeepSeek, 進(jìn)入通用人工智能
(AGI) 領(lǐng)域。DeepSeek
的背景知識(shí)DeepSeek
大模型發(fā)布時(shí)間表-2024年01月05日,正式發(fā)布首個(gè)大模型DeepSeek LLM;-2024年01月25日,正式發(fā)布DeepSeek-Coder, 由一系列代碼語(yǔ)言模型組成;-2024年02月05日,正式發(fā)布DeepSeek-Math, 以
DeepSeek-Coder V1.57b為基礎(chǔ);-2024年03月11日,正式發(fā)布DeepSeek-VL, 是一個(gè)開(kāi)源的視覺(jué)-語(yǔ)言
(VL)
模型;-2024年05月07日,正式發(fā)布第二代開(kāi)源MoE
模型DeepSeek-V2;-2024年06月17日,正式發(fā)布DeepSeek-Coder-V2,
支持的編程語(yǔ)言從86種擴(kuò)展到338種;-2024年09月06日,合并DeepSeek-Coder-V2
和DeepSeek-V2-Chat
兩個(gè)模型,升級(jí)推出DeepSeek-V2.5;-2024年11月20日,正式發(fā)布DeepSeek-R1-Lite預(yù)覽版;-2024年12月13日,正式發(fā)布DeepSeek-VL2,用于高級(jí)多模態(tài)理解的專(zhuān)家混合視覺(jué)語(yǔ)言模型;-2024年12月26日,正式發(fā)布DeepSeek-V3, 并同步開(kāi)源模型權(quán)重;-2025年01月20日,正式發(fā)布DeepSeek-R1、DeepSeek-R1-Zero, 并同步開(kāi)源模型權(quán)重。DeepSeek
的背景知識(shí)掀起本次DeepSeek熱潮的,主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroDeepSeek的背景知識(shí)PARTDeepSeek@?§Ig????<.,DeepSeek-V3 的基本情況-DeepSeek-V3
是一款高性能、低成本的開(kāi)源通用語(yǔ)言模型。-
適
用
場(chǎng)
景
:高性能對(duì)話、復(fù)雜任務(wù)處理和高精度場(chǎng)景,例如長(zhǎng)文檔分析、多模態(tài)推理、科研計(jì)算等。- 設(shè)計(jì)目標(biāo):進(jìn)一步提升開(kāi)源模型的能力,縮小與閉源模型的差距,同時(shí)保持訓(xùn)練成本的經(jīng)濟(jì)性。參
數(shù)
規(guī)
模
:共有6710億個(gè)參數(shù)。但每次處理一個(gè)token時(shí)只激活370億個(gè)參數(shù)。這種設(shè)計(jì)降低了計(jì)算成本。訓(xùn)
練
成
本
:總計(jì)278.8萬(wàn)H800
GPU小時(shí)
(Meta
的Llama3.1需要3080萬(wàn)GPU小時(shí))。假設(shè)每小時(shí)2美元,費(fèi)用約557.6萬(wàn)美元(約為GPT-4的二十分之一)。價(jià)
格
費(fèi)
用
:模型API服務(wù)定價(jià)為每百萬(wàn)輸入tokens
0.5元(
緩存命中)
/
2
元(
緩存未命中)
,
每百萬(wàn)輸出tokens
8元。在性能實(shí)現(xiàn)領(lǐng)先的同時(shí),定價(jià)大幅低于市面上所有模型,性?xún)r(jià)比優(yōu)勢(shì)明顯。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3
的性能表現(xiàn)-
在數(shù)學(xué)推理
(GSM8K)、
代碼生成
(HumanEval)、
常識(shí)推理
(MMLU)
等基準(zhǔn)測(cè)試中達(dá)到領(lǐng)先水平。-在公開(kāi)評(píng)測(cè)集(如
MMLU、BBH、DROP)
中表現(xiàn)優(yōu)異,尤其在復(fù)雜推理任務(wù)上接近或超越GPT-4
Turbo等頂尖模型。-多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B 和
Llama-3.1-405BGPT-40
以及Claude-3.5-Sonnet不相上下。-
在知識(shí)類(lèi)任務(wù)
(
MMLU,
MMLU-
Pro,
GPQA,
SimpleQA)此前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022(Anthropic等其它開(kāi)源模型,并在性能上和世界頂尖的閉源模型上的水平相比前代DeepSeek-V2.5顯著提升,接近公司于2
0
2
4
年1
0
月發(fā)布)
。-通過(guò)算法和工程上的創(chuàng)新,將生成吐字速度從20TPS(Transactions
Per
Second每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,
相比V2.5
模型實(shí)現(xiàn)了3倍的提升,可以帶來(lái)更加流暢的使用體驗(yàn)。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3 的技術(shù)特點(diǎn)采
用
了多頭潛在注意力
(MLA)
和DeepSeekMoE
架構(gòu),實(shí)現(xiàn)高效推理,提升成本效益。開(kāi)創(chuàng)了
一
種無(wú)輔助損失
(auxiliary-loss-free)
策略用于負(fù)載平衡,并設(shè)置了多token預(yù)測(cè)訓(xùn)練目標(biāo),以提升性能。-在訓(xùn)練效率上,運(yùn)用了FP8
混合精度訓(xùn)練,讓顯存得到了優(yōu)化,極大提升了計(jì)算性能與訓(xùn)練穩(wěn)定性。-支持千卡級(jí)訓(xùn)練,滿足超大規(guī)模集群分布式訓(xùn)練需求。采用DualPipe
(雙向流水線)算法和通信優(yōu)化,實(shí)現(xiàn)計(jì)算-通信近乎完全重疊。-訓(xùn)練分為三個(gè)階段:預(yù)訓(xùn)練
(Pre-Training)、
長(zhǎng)上下文擴(kuò)展
(Long
Context
Extension)
和后訓(xùn)練
(Post-Training)。-推理環(huán)節(jié)通過(guò)獨(dú)特的P/D分離策略和NanoFlow
的雙流推理模式,提升了系統(tǒng)的資源利用率。DeepSeek的技術(shù)特點(diǎn)DeepSeek@)gI)t????*.,o %@@?g
?@,<,@@R?jj
(MoE)OOOOOOOOOutputüddenh,RouterTop-fftRoutedExpertShared
ExpertOOOOOOOOinputHidden
u\%@
:
DeepSeekt
QDeepSeek@}gI)t(g??*.,a %@@gt—@§$@]gfg@3g
(MLA)Mi.A?^1.°.I?03tBZA
(%B.°.i3dW'*iZ/3d7)ZPOIt4tI?B2iZtZ8IZA.OutputHiddenu,
oooo@@ CachedDuring
InferenceooooIVtulti-Head
AtténtionLatentcK*@
@
-
@i
iOO OO Latent
c,’InputHidden
h?
OOOO OOOO@U@
:
DeepSeekj
@a
DeepSeek@?I}?@,??o %@@?
@?@@@I}
(MTP)@: DeepSeekì?Q關(guān)鍵技術(shù)——FP8
精度訓(xùn)練-DeepSeek-V3
將大部分計(jì)算密集型操作(如矩陣乘法)使用FP8
精度進(jìn)行,同時(shí)保留一些關(guān)鍵操作(如嵌入層、輸出頭、歸一化操作等)的高精度
(BF16
或
FP32), 以確保訓(xùn)練的數(shù)值穩(wěn)定性。-在此基礎(chǔ)上,進(jìn)一步疊加細(xì)粒度量化、高精度累加、在線量化、低精度存儲(chǔ)和通信等技術(shù)方法,成功實(shí)現(xiàn)了高效的
FP8精度訓(xùn)練。-FP8
精度訓(xùn)練不僅顯著提高了訓(xùn)練速度和效率,還保持了模型的高性能。DeepSeek 的技術(shù)特點(diǎn)DeepSeek
的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——雙向流水線
(DualPipe)核
心
思
想
是
將
模
型
的
不
同
層
分
配
到
不
同
的GPU上
進(jìn)
行
并
行
訓(xùn)
練
,
并
通
過(guò)
雙
向
流
水
線
調(diào)
度
來(lái)
同
時(shí)
處理
正
向
傳
播
和
反
向
傳
播
。具
體
來(lái)
說(shuō)
,
它
允
許
從
流
水
線
的
兩
端
同
時(shí)
輸
入
微
批
次
(micro-batches), 從
而
最
大
化
地
利
用
計(jì)
算
資源
并
減
少
通
信
開(kāi)
銷(xiāo)
,
該
方
法
實(shí)
現(xiàn)
了
高
效
的
模
型
訓(xùn)
練
,
為
大
規(guī)
模
分
布
式
訓(xùn)
練
提
供
了
強(qiáng)
大
的
支
持
。DeepSeek
的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——跨節(jié)點(diǎn)通信技術(shù)-通過(guò)高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核、通信和計(jì)算的重疊、定制化通信內(nèi)核、低精度通信以及對(duì)未來(lái)硬件設(shè)計(jì)的建議,顯著提高了跨節(jié)點(diǎn)通信的效率。-不僅減少了通信開(kāi)銷(xiāo),還提高了整體訓(xùn)練效率,為大規(guī)模分布式訓(xùn)練提供了強(qiáng)大的支持。DeepSeek-R1
和DeepSeek-R1-Zero 的基本情況-DeepSeek-R1 和DeepSeek-R1-Zero 都是開(kāi)源推理大模型。-
兩者均基于DeepSeek-V3
的混合專(zhuān)家
(MoE)
架構(gòu),總參數(shù)量為6710億,但每個(gè)推理請(qǐng)求僅激活約10
的參數(shù)以降低計(jì)算成本。主
要
區(qū)
別
:R1-Zero:
完全依賴(lài)強(qiáng)化學(xué)習(xí)
(Reinforcement
Learning,RL)訓(xùn)練,跳過(guò)監(jiān)督微調(diào)
(Supervised
Fine-Tuning,SFT),
通過(guò)組相對(duì)策略?xún)?yōu)化(Group
Relative
Policy
Optimization,GRPO)算法和組內(nèi)競(jìng)爭(zhēng)機(jī)制優(yōu)化推理能力,主要目的是探索和驗(yàn)證純RL
的可行性和潛力。R1-Zero除了證明純強(qiáng)化學(xué)習(xí)的有效性,亦有“頓悟”現(xiàn)象的出現(xiàn),即在模型自發(fā)的推理策略博弈中學(xué)習(xí)到的新的、更有效的推理策略。
R1:
在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)
(SFT)
與強(qiáng)化學(xué)習(xí)
(RL),
提升輸出的可讀性和穩(wěn)定性,優(yōu)化輸出質(zhì)量,對(duì)性能和實(shí)用性進(jìn)行平衡,適用于實(shí)際場(chǎng)景。DeepSeek 的技術(shù)特點(diǎn)精調(diào)(監(jiān)督學(xué)習(xí))跳過(guò)了監(jiān)督微調(diào)
(SFT)
的過(guò)程,直接將強(qiáng)化學(xué)習(xí)
(RL)
應(yīng)用于基礎(chǔ)模型,從而發(fā)展出DeepSeek-R1-Zero
(會(huì)推理,且出現(xiàn)“頓悟時(shí)刻”)但R1
Zero有些"毛病",比如可讀性差、語(yǔ)言混合等,所以團(tuán)隊(duì)開(kāi)始探索R1為了解決R1-Zero的“毛病”,DeepSeek
團(tuán)隊(duì)加了兩招:冷啟動(dòng)數(shù)據(jù):
先給DeepSeek
V3
Base模型看幾千條人工寫(xiě)的高質(zhì)量推理示例(比如詳細(xì)的解題步驟),讓它“開(kāi)竅”;多階段訓(xùn)練:先用冷啟動(dòng)數(shù)據(jù)微調(diào)模型,再用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化,最后結(jié)合其他任務(wù)的數(shù)據(jù)(比如寫(xiě)作、翻譯)再訓(xùn)練,讓模型既聰明又“
會(huì)說(shuō)人話”
。DeepSeek-R1
和DeepSeek-R1-Zero 的基本情況DeepSeek
V3 BaseDeepSeekR1
ZeroDeepSeek R1DeepSeek 的技術(shù)特點(diǎn)圖片來(lái)源:《DeepSeek自學(xué)手冊(cè)》精調(diào)(強(qiáng)化學(xué)習(xí))R1R1-Zero主要特點(diǎn)在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(
RL)完全依賴(lài)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,跳過(guò)監(jiān)督微調(diào)(SFT)推理能力穩(wěn)定且全面潛力大但波動(dòng)性強(qiáng)可讀性語(yǔ)言流暢、結(jié)構(gòu)清晰語(yǔ)言混雜、重復(fù)率高泛化性覆蓋通用任務(wù)(問(wèn)答、寫(xiě)作等)局限于數(shù)學(xué)、代碼等強(qiáng)驗(yàn)證領(lǐng)域訓(xùn)練效率冷啟動(dòng)加速訓(xùn)練,避免局部最優(yōu)收斂時(shí)間長(zhǎng)(無(wú)先驗(yàn)引導(dǎo))應(yīng)用場(chǎng)景實(shí)際場(chǎng)景技術(shù)驗(yàn)證DeepSeek 的技術(shù)特點(diǎn)DeepSeek-R1
和DeepSeek-R1-Zero
的對(duì)比DeepSeek-R1OpenAl
o1AIME
202479.8%79.2%MATH-50097.3%96.4%Codeforces20292061MMLU90.8%91.8%DeepSeek-R1
的性能表現(xiàn)-DeepSeek-R1
作為開(kāi)源模型,在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能能夠比肩OpenAl01
正式版。-在國(guó)外大模型排名榜Chatbot
Arena上
,DeepSeek-R1的基準(zhǔn)測(cè)試排名已經(jīng)升至全類(lèi)別大模型第三,與OpenAl
的ChatGPT-40
最新版并列,并在風(fēng)格控制類(lèi)模型
(StyleCtrl) 分類(lèi)中與OpenAl
的01模型并列第一。DeepSeek 的技術(shù)特點(diǎn)基準(zhǔn)測(cè)試成績(jī)對(duì)比DeepSeek-R1 的技術(shù)特點(diǎn)強(qiáng)
化
學(xué)
習(xí)
:DeepSeek-R1的訓(xùn)練方法是最大亮點(diǎn)。通過(guò)重新設(shè)計(jì)訓(xùn)練流程、以少量SFT數(shù)據(jù)+多輪RL強(qiáng)化學(xué)習(xí)的辦法(基礎(chǔ)模型
→RL→微調(diào)迭代),既提高了模型準(zhǔn)確性,也顯著降低了內(nèi)存占用和計(jì)算開(kāi)銷(xiāo)。獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì):
DeepSeek-R1采用了準(zhǔn)確性獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)、語(yǔ)言一致性獎(jiǎng)勵(lì)等機(jī)制,確保了模型在推理任務(wù)中的高效性和可讀性。訓(xùn)練模板與結(jié)構(gòu)化輸出:DeepSeek-R1
采用“思考-回答”雙階段訓(xùn)練模板,模型需先展示推理過(guò)程,再提供最終答案,推理過(guò)程可追蹤,為獎(jiǎng)勵(lì)計(jì)算提供了明確基準(zhǔn)。蒸餾技術(shù):DeepSeek-R1
遵循MIT
License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助R1訓(xùn)練其他模型。
DeepSeek-R1
系列提供1.5B至70B
參數(shù)蒸餾版本,其中7B模型經(jīng)INT4
量化后僅需2-4GB
存儲(chǔ),完美適配終端設(shè)備內(nèi)存限制。DeepSeek
在開(kāi)源R1-Zero和R1兩個(gè)660B模型的同時(shí),蒸餾了6個(gè)小模型開(kāi)源給社區(qū),其中32B和70B模型在多項(xiàng)能力上可以對(duì)標(biāo)OpenAl
01-mini。-
開(kāi)
放
思
維
鏈(CoT,Chain
of
Thought)
輸出:DeepSeek-R1
的動(dòng)態(tài)思維鏈,支持?jǐn)?shù)萬(wàn)字級(jí)內(nèi)部推理過(guò)程,解決復(fù)雜問(wèn)題時(shí)能自主拆解步驟并驗(yàn)證邏輯,輸出可解釋性更強(qiáng)的結(jié)果。DeepSeek-R1
通過(guò)API對(duì)用戶(hù)開(kāi)放思維鏈輸出。DeepSeek的技術(shù)特點(diǎn)DeepSeek@@I)?@,?go %@@&—??@@@@ (Knowledge
Distillation)- \I'eZ&?—f4'8":/&5?+MIL (bib\ZE) as0i%Ys€'J?9tBI8rI9tL(?1tBB?
BB:It.* " J J ?DeepSeek 的技術(shù)特點(diǎn)總結(jié)——DeepSeek大模型的核心特點(diǎn)高性能+
低成本+
開(kāi)源+
國(guó)產(chǎn)PARTDeepSeek????@???é市場(chǎng)反饋-
1月27日,
DeepSeek
引發(fā)了股票市場(chǎng)的劇烈波動(dòng)。Al概念股大跌,歐美科技股市值蒸發(fā)1.2萬(wàn)億美元,歐美芯片制造商以及為Al和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。其中,英偉達(dá)收盤(pán)暴跌16.97,市值一個(gè)交易日蒸發(fā)5926.58億美元(約合人民幣4.3萬(wàn)億元),規(guī)模創(chuàng)美股史上最大。截止1月31日,
DeepSeek
App上線僅21天,日活躍用戶(hù)DAU2215萬(wàn),達(dá)ChatGPT日活用戶(hù)的41
.
6
,
超過(guò)豆包(
1695
萬(wàn))。截至2月2日,
DeepSeek App迅速攀升至140個(gè)國(guó)家的蘋(píng)果App
Store下載排行榜首位,并在美國(guó)的Android
Play
Store中同樣占據(jù)榜首位置。DeepSeek
造成的影響大佬表態(tài)美國(guó)總統(tǒng)特朗普:
DeepSeek給我們(科技)行業(yè)敲響了警鐘,我們應(yīng)為了贏得勝利而努力競(jìng)爭(zhēng)。微
軟CEO
納德拉:在財(cái)報(bào)電話會(huì)議上稱(chēng)DeepSeek
“有一些真的創(chuàng)新”,并透露R1
模型已經(jīng)可以通過(guò)微軟的Al平臺(tái)獲取。-MetaCEO 扎克伯格:Meta將DeepSeek視為競(jìng)爭(zhēng)對(duì)手并正在學(xué)習(xí)。-ASML
CEO:DeepSeek這樣的低成本模型將帶來(lái)更多而非更少的Al芯片需求。-Anthropic 創(chuàng)始人:DeepSeek-V3是真正的創(chuàng)新所在。-人工智能專(zhuān)家吳恩達(dá):中美AlI差距正在迅速縮小。-OpenAI CEO
山姆奧特曼:“在開(kāi)源上,OpenAl
站在了歷史的錯(cuò)誤一方”。《黑神話:悟空》的制作人馮驥:這是一項(xiàng)“國(guó)運(yùn)級(jí)別的科技成果”。DeepSeek
造成的影響重要影響1:改變了Al技術(shù)的發(fā)展方向-DeepSeek
通過(guò)算法創(chuàng)新和系統(tǒng)工程優(yōu)化,實(shí)現(xiàn)了與國(guó)際頂尖模型相當(dāng)?shù)男阅?,同時(shí)大幅降低了訓(xùn)練成本。-算力至上的傳統(tǒng)認(rèn)知被徹底打破。訓(xùn)練Al大模型,并不只有算力堆砌這一條路。-算法創(chuàng)新的重要性提升,不再僅僅聚焦于算力創(chuàng)新和數(shù)據(jù)創(chuàng)新。-通過(guò)算法的優(yōu)化,可以實(shí)現(xiàn)AI平權(quán)。DeepSeek
造成的影響重要影響2:改變了全球Al進(jìn)展的格局-DeepSeek 大模型的出現(xiàn),對(duì)美國(guó)的人工智能領(lǐng)導(dǎo)地位構(gòu)成威脅,不僅引發(fā)了OpenAl
、Meta
、
谷歌等眾多大模型廠商恐慌,還引發(fā)了英偉達(dá)等Al芯片企業(yè)的股價(jià)大跌。-DeepSeek 表明中國(guó)與美國(guó)在AI大模型領(lǐng)域的差距正在快速縮小,甚至在某些方面實(shí)現(xiàn)了超越。-DeepSeek
大幅提升了國(guó)產(chǎn)AI產(chǎn)業(yè)鏈(芯片、終端、大模型、應(yīng)用)的信心。-DeepSeek-DeepSeek進(jìn)一步引發(fā)了資本市場(chǎng)對(duì)中國(guó)科技力量的重新評(píng)估,也影響了對(duì)中概股的重新估值。的成功,對(duì)其它發(fā)展中國(guó)家也有鼓舞作用,有助于Al全球化普及和應(yīng)用。DeepSeek
造成的影響重要影響3:全面加速Al端側(cè)應(yīng)用的落地-大模型的價(jià)格正在快速下降,極大推動(dòng)了AI在端側(cè)的應(yīng)用普及。-Al 推理首次真正突破硬件限制,部署成本從高端GPU
擴(kuò)展至消費(fèi)級(jí)GPU。-大模型開(kāi)始具有低參數(shù)量的特征,加上蒸餾技術(shù)的崛起,為本地化部署到Al終端運(yùn)行提供了可能。-本地部署為用戶(hù)提供了更高的靈活性和隱私保護(hù),尤其適合對(duì)數(shù)據(jù)安全有較高要求的場(chǎng)景,有利于Al的進(jìn)一步普及。-算力需求會(huì)從預(yù)訓(xùn)練端轉(zhuǎn)移到推理端。推理需求的持續(xù)增長(zhǎng),會(huì)帶動(dòng)端側(cè)Al算力芯片、終端等產(chǎn)業(yè)的增長(zhǎng)浪潮。-Al
端側(cè)應(yīng)用普及,會(huì)進(jìn)一步推動(dòng)各行各業(yè)的效率提升,加速催生了新的商業(yè)模式和產(chǎn)業(yè)形態(tài)。-垂直行業(yè)模型有可能迎來(lái)一波發(fā)展高潮。DeepSeek
造成的影響重要影響4:對(duì)Al算力供給關(guān)系造成沖擊-
短期來(lái)看,
市場(chǎng)和公眾普遍認(rèn)為DeepSeek
的出現(xiàn),
降低了Al大模型對(duì)智算算力的需求(
英偉達(dá)股價(jià)下跌的原因)。-
但事實(shí)上,
從長(zhǎng)期來(lái)看,
根據(jù)杰文斯Jevons悖論(
第一次工業(yè)革命期間,
蒸汽機(jī)效率的提升,
使得市場(chǎng)上煤炭的消耗總量反而增加了),整個(gè)社會(huì)隨著Al應(yīng)用的加速普及,對(duì)算力的總需求反而會(huì)增加。DeepSeek
造成的影響DeepSeek造成的影響重要影響5:引領(lǐng)開(kāi)源力量的大跨步發(fā)展-DeepSeek
是開(kāi)源大模型的一次重大勝利。-DeepSeek
的成功,吸引了大量開(kāi)發(fā)者參與改進(jìn)和研究,推動(dòng)了開(kāi)源社區(qū)的發(fā)展。-DeekSeek
對(duì)閉源模型市場(chǎng)形成了沖擊,迫使閉源廠商降低價(jià)格或提升性能以維持市場(chǎng)份額。云廠商全面接入DeepSeek-華為云:2月1日,華為云聯(lián)合硅基流動(dòng)首發(fā)并上線基于昇騰云服務(wù)的
DeepSeek R1N3推理服務(wù)。-騰訊云:2月3日,騰訊云宣布
DeepSeek-R1
大模型一鍵部署至騰訊云
[HAI,
高性能應(yīng)用服務(wù)」上。阿里云:2月3日,阿里云宣布阿里云PAI
Model
Gallery支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。-百度智能云:2月3日,百度智能云宣布百度智能云千帆平臺(tái)已正式上架
DeepSeek-R1
和
DeepSeek-V3
模型。火山引擎:2月4日,支持V3/R1等不同尺寸的DeepSeek
開(kāi)源模型,可在火山引擎機(jī)器學(xué)習(xí)平臺(tái)veMLP
中部署,也可在火山方舟中調(diào)用。-金山云:2月8日,已正式發(fā)布基于DeepSeek-R1 蒸餾模型的多種鏡像服務(wù),用戶(hù)可在公有云
GPU
云服務(wù)器、GPU 裸金屬服務(wù)器分別搭建推理服務(wù)。微
軟Azure:1 月29日,,微軟也宣布DeepSeek R1已
在Azure
Al
Foundry和
GitHub
上提供,開(kāi)發(fā)者將很快就能在Copilot+PC
上本地運(yùn)行
DeepSeek的
R1
精簡(jiǎn)模型,以及在Windows
上龐大的GPU
生態(tài)系統(tǒng)中運(yùn)行。亞馬
遜AWS:1 月30日,亞馬遜表示,
DeepSeek-R1模型現(xiàn)在已可以在AmazonWebServices
上使用。DeepSeek
造成的影響運(yùn)營(yíng)商全面接入DeepSeek中
國(guó)
電
信
:天翼云自研“息壤”智算平臺(tái)完成國(guó)產(chǎn)算力與DeepSeek-R1N3
系列大模型的深度適配優(yōu)化,成為國(guó)內(nèi)首家實(shí)現(xiàn)DeepSeek
模型全棧國(guó)產(chǎn)化推理服務(wù)落地的運(yùn)營(yíng)商級(jí)云平臺(tái);中
國(guó)
移
動(dòng)
:移動(dòng)云全面上線DeepSeek,
全版本覆蓋、全尺寸適配、全功能暢用。現(xiàn)已全面兼容DeepSeek
所有主流版本,靈活應(yīng)對(duì)多樣化業(yè)務(wù)場(chǎng)景需求;中
國(guó)
聯(lián)
通
:聯(lián)通云與DeepSeek
實(shí)現(xiàn)多場(chǎng)景深度對(duì)接。聯(lián)通云已基于“星羅”平臺(tái)實(shí)現(xiàn)多規(guī)格DeepSeek-R1模型適配,并在全國(guó)270多個(gè)骨干云池預(yù)部署,接入多種產(chǎn)品場(chǎng)景。DeepSeek
造成的影響生態(tài)鏈適配-
目前已有多家國(guó)產(chǎn)Al算力廠商宣布適配DeepSeek,
比如華為昇騰、壁仞科技、天數(shù)智芯、摩爾線程、沐曦等。-2月4日,天數(shù)智芯與Gitee
Al聯(lián)合發(fā)布消息,在雙方的高效協(xié)作下,僅用時(shí)一天,便成功完成了與DeepSeekR1的適配工作,并且已正式上線多款大模型服務(wù)。-2月4日,華為表示,潞晨科技攜手昇騰,聯(lián)合發(fā)布基于昇騰算力的DeepSeek R1系列推理API及云鏡像服務(wù)。-2月6日,吉利汽車(chē)與DeepSeek完成模型融合,計(jì)劃通過(guò)蒸餾訓(xùn)練優(yōu)化車(chē)載Al功能(如意圖理解、主動(dòng)服務(wù)等),并計(jì)劃在智能座艙、自動(dòng)駕駛等領(lǐng)域應(yīng)用。-2月7日,嵐圖汽車(chē)則宣布首款量產(chǎn)車(chē)型“知音”將搭載DeepSeek
模型,支持Al多語(yǔ)義指令識(shí)別等功能。-2月16日,百度搜索和文心智能體平臺(tái)宣布將全面接入DeepSeek
和文心大模型最新的深度搜索功能。-2月17日,有媒體發(fā)現(xiàn),微信已為搜索功能接入DeepSeek-R1
模型,處于小范圍灰度測(cè)試中。一....DeepSeek
造成的影響PARTDeepSeek@@@???DeepSeek 的使用入口-官
方官
網(wǎng)
:/官
方API平臺(tái):/-第三
方各大應(yīng)用商店,下載官方App第三方工具接入-
自己搭建部署私有化部署(本地部署)DeepSeek
的使用方法DeepSeek@@@/2@o
DeepSeek- @@: DeepSeek@AI@@@@,
DRAG
(@@@@
)
.
@
DeepSeek
@gg@
tEIi2
IIEsa
(xxezo24Y7? zêtass?nsa1sygrna2a?r°aa.@@
DeepSeek,
@@gJ{
!場(chǎng)景細(xì)分場(chǎng)景再細(xì)分場(chǎng)景文本生成文本創(chuàng)作文章寫(xiě)作、詩(shī)歌創(chuàng)作,文案生成,劇本設(shè)計(jì).....摘要與改寫(xiě)生成論文摘要,外文翻譯
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年高中數(shù)學(xué) 第3章 數(shù)系的擴(kuò)充與復(fù)數(shù)的引入 3.2 復(fù)數(shù)代數(shù)形式的四則運(yùn)算 3.2.2 復(fù)數(shù)代數(shù)形式的乘除運(yùn)算(教師用書(shū))教學(xué)實(shí)錄 新人教A版選修2-2
- 鄭州信息科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試參考試題(附答案)
- DB14T 3224-2024藝術(shù)檔案收集與整 理規(guī)范
- 小學(xué)教科研活動(dòng)總結(jié)
- 電氣自動(dòng)化專(zhuān)業(yè)實(shí)習(xí)報(bào)告
- 廣告業(yè)務(wù)年度總結(jié)
- 房東房屋租賃合同
- 網(wǎng)絡(luò)公司網(wǎng)站建設(shè)合同
- 五星級(jí)酒店改造工程裝修合同
- 2025年哈爾濱貨運(yùn)資格證模擬考試
- 2024年09月全國(guó)2024年中國(guó)銀行信息科技運(yùn)營(yíng)中心校園招考筆試歷年參考題庫(kù)附帶答案詳解
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫(kù)及答案(620題)
- DB32∕T 3724-2020 高標(biāo)準(zhǔn)農(nóng)田建設(shè)項(xiàng)目初步設(shè)計(jì)報(bào)告編制規(guī)程
- 牛排培訓(xùn)課件圖片
- 光學(xué)材料銷(xiāo)售實(shí)習(xí)報(bào)告
- 浙江省溫州市2025屆高三第二次調(diào)研英語(yǔ)試卷含解析
- 河道漂浮物清理合同
- 在線出租服裝行業(yè)可行性分析報(bào)告
- 光伏項(xiàng)目運(yùn)維服務(wù)承包合同5篇
- 2024水電站輸水發(fā)電系統(tǒng)運(yùn)行安全評(píng)價(jià)導(dǎo)則
- 2024年度博物館展覽設(shè)計(jì)合同
評(píng)論
0/150
提交評(píng)論