DeepSeek基礎(chǔ)知識(shí)手冊(cè)

上傳人：b*** IP屬地：北京上傳時(shí)間：2025-03-24 格式：PPTX 頁(yè)數(shù)：42 大小：1.11MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩37頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

C??'NTENTSDeepSeeDeepSeeDeepSeeDeepSee*y?,PARTDeepSeek@??@????,什么是DeepSeek-

DeepSeek

公司：杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。-DeepSeek

大模型：DeepSeek

公司推出的一系列大模型的統(tǒng)稱(chēng)。DeepSeek

的背景知識(shí)DeepSeek

公司-成立時(shí)間：2023年7月；-

創(chuàng)始人：

梁文峰(

幻方量化的聯(lián)合創(chuàng)始人);-所在城市：浙江省杭州市拱墅區(qū)；-公司口號(hào)：探索未至之境；技術(shù)的研發(fā)和應(yīng)用；-公司業(yè)務(wù)方向：專(zhuān)注于通用人工智能

(AGI)-

“杭州六小龍”之一；-團(tuán)隊(duì)成員大多來(lái)自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國(guó)內(nèi)頂尖高校。DeepSeek

的背景知識(shí)梁文峰-

出生年份：1985年；-籍貫：廣東省湛江市吳川市覃巴鎮(zhèn)米歷嶺村；學(xué)歷背景：2002年，考入浙江大學(xué)電子工程系電子信息工程專(zhuān)業(yè)；2007年，考上浙江大學(xué)信息與通信工程專(zhuān)業(yè)研究生；2010年，獲得碩士學(xué)位；工作背景：2008年，開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索量化交易；2015年，創(chuàng)立了幻方科技(杭州幻方科技有限公司);2019年，其資金管理規(guī)模突破百億元；2023年7月，幻方量化宣布成立大模型公司DeepSeek, 進(jìn)入通用人工智能

(AGI) 領(lǐng)域。DeepSeek

的背景知識(shí)DeepSeek

大模型發(fā)布時(shí)間表-2024年01月05日，正式發(fā)布首個(gè)大模型DeepSeek LLM;-2024年01月25日，正式發(fā)布DeepSeek-Coder, 由一系列代碼語(yǔ)言模型組成；-2024年02月05日，正式發(fā)布DeepSeek-Math, 以

DeepSeek-Coder V1.57b為基礎(chǔ)；-2024年03月11日，正式發(fā)布DeepSeek-VL, 是一個(gè)開(kāi)源的視覺(jué)-語(yǔ)言

(VL)

模型；-2024年05月07日，正式發(fā)布第二代開(kāi)源MoE

模型DeepSeek-V2;-2024年06月17日，正式發(fā)布DeepSeek-Coder-V2,

支持的編程語(yǔ)言從86種擴(kuò)展到338種；-2024年09月06日，合并DeepSeek-Coder-V2

和DeepSeek-V2-Chat

兩個(gè)模型，升級(jí)推出DeepSeek-V2.5;-2024年11月20日，正式發(fā)布DeepSeek-R1-Lite預(yù)覽版；-2024年12月13日，正式發(fā)布DeepSeek-VL2,用于高級(jí)多模態(tài)理解的專(zhuān)家混合視覺(jué)語(yǔ)言模型；-2024年12月26日，正式發(fā)布DeepSeek-V3, 并同步開(kāi)源模型權(quán)重；-2025年01月20日，正式發(fā)布DeepSeek-R1、DeepSeek-R1-Zero, 并同步開(kāi)源模型權(quán)重。DeepSeek

的背景知識(shí)掀起本次DeepSeek熱潮的，主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroDeepSeek的背景知識(shí)PARTDeepSeek@?§Ig????<.,DeepSeek-V3 的基本情況-DeepSeek-V3

是一款高性能、低成本的開(kāi)源通用語(yǔ)言模型。-

適

用

場(chǎng)

景

：高性能對(duì)話、復(fù)雜任務(wù)處理和高精度場(chǎng)景，例如長(zhǎng)文檔分析、多模態(tài)推理、科研計(jì)算等。- 設(shè)計(jì)目標(biāo)：進(jìn)一步提升開(kāi)源模型的能力，縮小與閉源模型的差距，同時(shí)保持訓(xùn)練成本的經(jīng)濟(jì)性。參

數(shù)

規(guī)

模

：共有6710億個(gè)參數(shù)。但每次處理一個(gè)token時(shí)只激活370億個(gè)參數(shù)。這種設(shè)計(jì)降低了計(jì)算成本。訓(xùn)

練

成

本

：總計(jì)278.8萬(wàn)H800

GPU小時(shí)

(Meta

的Llama3.1需要3080萬(wàn)GPU小時(shí))。假設(shè)每小時(shí)2美元，費(fèi)用約557.6萬(wàn)美元(約為GPT-4的二十分之一)。價(jià)

格

費(fèi)

用

：模型API服務(wù)定價(jià)為每百萬(wàn)輸入tokens

0.5元(

緩存命中)

元(

緩存未命中)

每百萬(wàn)輸出tokens

8元。在性能實(shí)現(xiàn)領(lǐng)先的同時(shí)，定價(jià)大幅低于市面上所有模型，性?xún)r(jià)比優(yōu)勢(shì)明顯。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3

的性能表現(xiàn)-

在數(shù)學(xué)推理

(GSM8K)、

代碼生成

(HumanEval)、

常識(shí)推理

(MMLU)

等基準(zhǔn)測(cè)試中達(dá)到領(lǐng)先水平。-在公開(kāi)評(píng)測(cè)集(如

MMLU、BBH、DROP)

中表現(xiàn)優(yōu)異，尤其在復(fù)雜推理任務(wù)上接近或超越GPT-4

Turbo等頂尖模型。-多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B 和

Llama-3.1-405BGPT-40

以及Claude-3.5-Sonnet不相上下。-

在知識(shí)類(lèi)任務(wù)

(

MMLU,

MMLU-

Pro,

GPQA,

SimpleQA)此前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022(Anthropic等其它開(kāi)源模型，并在性能上和世界頂尖的閉源模型上的水平相比前代DeepSeek-V2.5顯著提升，接近公司于2

年1

月發(fā)布)

。-通過(guò)算法和工程上的創(chuàng)新，將生成吐字速度從20TPS(Transactions

Per

Second每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,

相比V2.5

模型實(shí)現(xiàn)了3倍的提升，可以帶來(lái)更加流暢的使用體驗(yàn)。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3 的技術(shù)特點(diǎn)采

用

了多頭潛在注意力

(MLA)

和DeepSeekMoE

架構(gòu)，實(shí)現(xiàn)高效推理，提升成本效益。開(kāi)創(chuàng)了

一

種無(wú)輔助損失

(auxiliary-loss-free)

策略用于負(fù)載平衡，并設(shè)置了多token預(yù)測(cè)訓(xùn)練目標(biāo)，以提升性能。-在訓(xùn)練效率上，運(yùn)用了FP8

混合精度訓(xùn)練，讓顯存得到了優(yōu)化，極大提升了計(jì)算性能與訓(xùn)練穩(wěn)定性。-支持千卡級(jí)訓(xùn)練，滿足超大規(guī)模集群分布式訓(xùn)練需求。采用DualPipe

(雙向流水線)算法和通信優(yōu)化，實(shí)現(xiàn)計(jì)算-通信近乎完全重疊。-訓(xùn)練分為三個(gè)階段：預(yù)訓(xùn)練

(Pre-Training)、

長(zhǎng)上下文擴(kuò)展

(Long

Context

Extension)

和后訓(xùn)練

(Post-Training)。-推理環(huán)節(jié)通過(guò)獨(dú)特的P/D分離策略和NanoFlow

的雙流推理模式，提升了系統(tǒng)的資源利用率。DeepSeek的技術(shù)特點(diǎn)DeepSeek@)gI)t????*.,o %@@?g

?@,<,@@R?jj

(MoE)OOOOOOOOOutputüddenh,RouterTop-fftRoutedExpertShared

ExpertOOOOOOOOinputHidden

u\%@

DeepSeekt

QDeepSeek@}gI)t(g??*.,a %@@gt—@§$@]gfg@3g

(MLA)Mi.A?^1.°.I?03tBZA

(%B.°.i3dW'*iZ/3d7)ZPOIt4tI?B2iZtZ8IZA.OutputHiddenu,

oooo@@ CachedDuring

InferenceooooIVtulti-Head

AtténtionLatentcK*@

iOO OO Latent

c,’InputHidden

OOOO OOOO@U@

DeepSeekj

DeepSeek@?I}?@,??o %@@?

@?@@@I}

(MTP)@: DeepSeekì?Q關(guān)鍵技術(shù)——FP8

精度訓(xùn)練-DeepSeek-V3

將大部分計(jì)算密集型操作(如矩陣乘法)使用FP8

精度進(jìn)行，同時(shí)保留一些關(guān)鍵操作(如嵌入層、輸出頭、歸一化操作等)的高精度

(BF16

或

FP32), 以確保訓(xùn)練的數(shù)值穩(wěn)定性。-在此基礎(chǔ)上，進(jìn)一步疊加細(xì)粒度量化、高精度累加、在線量化、低精度存儲(chǔ)和通信等技術(shù)方法，成功實(shí)現(xiàn)了高效的

FP8精度訓(xùn)練。-FP8

精度訓(xùn)練不僅顯著提高了訓(xùn)練速度和效率，還保持了模型的高性能。DeepSeek 的技術(shù)特點(diǎn)DeepSeek

的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——雙向流水線

(DualPipe)核

心

思

想

是

將

模

型

的

不

同

層

分

配

到

不

同

的GPU上

進(jìn)

行

并

行

訓(xùn)

練

，

并

通

過(guò)

雙

向

流

水

線

調(diào)

度

來(lái)

同

時(shí)

處理

正

向

傳

播

和

反

向

傳

播

。具

體

來(lái)

說(shuō)

，

它

允

許

從

流

水

線

的

兩

端

同

時(shí)

輸

入

微

批

次

(micro-batches), 從

而

最

大

化

地

利

用

計(jì)

算

資源

并

減

少

通

信

開(kāi)

銷(xiāo)

，

該

方

法

實(shí)

現(xiàn)

了

高

效

的

模

型

訓(xùn)

練

，

為

大

規(guī)

模

分

布

式

訓(xùn)

練

提

供

了

強(qiáng)

大

的

支

持

。DeepSeek

的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——跨節(jié)點(diǎn)通信技術(shù)-通過(guò)高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核、通信和計(jì)算的重疊、定制化通信內(nèi)核、低精度通信以及對(duì)未來(lái)硬件設(shè)計(jì)的建議，顯著提高了跨節(jié)點(diǎn)通信的效率。-不僅減少了通信開(kāi)銷(xiāo)，還提高了整體訓(xùn)練效率，為大規(guī)模分布式訓(xùn)練提供了強(qiáng)大的支持。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情況-DeepSeek-R1 和DeepSeek-R1-Zero 都是開(kāi)源推理大模型。-

兩者均基于DeepSeek-V3

的混合專(zhuān)家

(MoE)

架構(gòu)，總參數(shù)量為6710億，但每個(gè)推理請(qǐng)求僅激活約10

的參數(shù)以降低計(jì)算成本。主

要

區(qū)

別

：R1-Zero:

完全依賴(lài)強(qiáng)化學(xué)習(xí)

(Reinforcement

Learning,RL)訓(xùn)練，跳過(guò)監(jiān)督微調(diào)

(Supervised

Fine-Tuning,SFT),

通過(guò)組相對(duì)策略?xún)?yōu)化(Group

Relative

Policy

Optimization,GRPO)算法和組內(nèi)競(jìng)爭(zhēng)機(jī)制優(yōu)化推理能力，主要目的是探索和驗(yàn)證純RL

的可行性和潛力。R1-Zero除了證明純強(qiáng)化學(xué)習(xí)的有效性，亦有“頓悟”現(xiàn)象的出現(xiàn)，即在模型自發(fā)的推理策略博弈中學(xué)習(xí)到的新的、更有效的推理策略。

R1:

在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化，結(jié)合監(jiān)督微調(diào)

(SFT)

與強(qiáng)化學(xué)習(xí)

(RL),

提升輸出的可讀性和穩(wěn)定性，優(yōu)化輸出質(zhì)量，對(duì)性能和實(shí)用性進(jìn)行平衡，適用于實(shí)際場(chǎng)景。DeepSeek 的技術(shù)特點(diǎn)精調(diào)(監(jiān)督學(xué)習(xí))跳過(guò)了監(jiān)督微調(diào)

(SFT)

的過(guò)程，直接將強(qiáng)化學(xué)習(xí)

(RL)

應(yīng)用于基礎(chǔ)模型，從而發(fā)展出DeepSeek-R1-Zero

(會(huì)推理，且出現(xiàn)“頓悟時(shí)刻”)但R1

Zero有些"毛病",比如可讀性差、語(yǔ)言混合等，所以團(tuán)隊(duì)開(kāi)始探索R1為了解決R1-Zero的“毛病”,DeepSeek

團(tuán)隊(duì)加了兩招：冷啟動(dòng)數(shù)據(jù)：

先給DeepSeek

Base模型看幾千條人工寫(xiě)的高質(zhì)量推理示例(比如詳細(xì)的解題步驟),讓它“開(kāi)竅”;多階段訓(xùn)練：先用冷啟動(dòng)數(shù)據(jù)微調(diào)模型，再用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化，最后結(jié)合其他任務(wù)的數(shù)據(jù)(比如寫(xiě)作、翻譯)再訓(xùn)練，讓模型既聰明又“

會(huì)說(shuō)人話”

。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情況DeepSeek

V3 BaseDeepSeekR1

ZeroDeepSeek R1DeepSeek 的技術(shù)特點(diǎn)圖片來(lái)源：《DeepSeek自學(xué)手冊(cè)》精調(diào)(強(qiáng)化學(xué)習(xí))R1R1-Zero主要特點(diǎn)在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化，結(jié)合監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(

RL)完全依賴(lài)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練，跳過(guò)監(jiān)督微調(diào)(SFT)推理能力穩(wěn)定且全面潛力大但波動(dòng)性強(qiáng)可讀性語(yǔ)言流暢、結(jié)構(gòu)清晰語(yǔ)言混雜、重復(fù)率高泛化性覆蓋通用任務(wù)(問(wèn)答、寫(xiě)作等)局限于數(shù)學(xué)、代碼等強(qiáng)驗(yàn)證領(lǐng)域訓(xùn)練效率冷啟動(dòng)加速訓(xùn)練，避免局部最優(yōu)收斂時(shí)間長(zhǎng)(無(wú)先驗(yàn)引導(dǎo))應(yīng)用場(chǎng)景實(shí)際場(chǎng)景技術(shù)驗(yàn)證DeepSeek 的技術(shù)特點(diǎn)DeepSeek-R1

和DeepSeek-R1-Zero

的對(duì)比DeepSeek-R1OpenAl

o1AIME

202479.8%79.2%MATH-50097.3%96.4%Codeforces20292061MMLU90.8%91.8%DeepSeek-R1

的性能表現(xiàn)-DeepSeek-R1

作為開(kāi)源模型，在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上，性能能夠比肩OpenAl01

正式版。-在國(guó)外大模型排名榜Chatbot

Arena上

，DeepSeek-R1的基準(zhǔn)測(cè)試排名已經(jīng)升至全類(lèi)別大模型第三，與OpenAl

的ChatGPT-40

最新版并列，并在風(fēng)格控制類(lèi)模型

(StyleCtrl) 分類(lèi)中與OpenAl

的01模型并列第一。DeepSeek 的技術(shù)特點(diǎn)基準(zhǔn)測(cè)試成績(jī)對(duì)比DeepSeek-R1 的技術(shù)特點(diǎn)強(qiáng)

化

學(xué)

習(xí)

：DeepSeek-R1的訓(xùn)練方法是最大亮點(diǎn)。通過(guò)重新設(shè)計(jì)訓(xùn)練流程、以少量SFT數(shù)據(jù)+多輪RL強(qiáng)化學(xué)習(xí)的辦法(基礎(chǔ)模型

→RL→微調(diào)迭代),既提高了模型準(zhǔn)確性，也顯著降低了內(nèi)存占用和計(jì)算開(kāi)銷(xiāo)。獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)：

DeepSeek-R1采用了準(zhǔn)確性獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)、語(yǔ)言一致性獎(jiǎng)勵(lì)等機(jī)制，確保了模型在推理任務(wù)中的高效性和可讀性。訓(xùn)練模板與結(jié)構(gòu)化輸出：DeepSeek-R1

采用“思考-回答”雙階段訓(xùn)練模板，模型需先展示推理過(guò)程，再提供最終答案，推理過(guò)程可追蹤，為獎(jiǎng)勵(lì)計(jì)算提供了明確基準(zhǔn)。蒸餾技術(shù)：DeepSeek-R1

遵循MIT

License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助R1訓(xùn)練其他模型。

DeepSeek-R1

系列提供1.5B至70B

參數(shù)蒸餾版本，其中7B模型經(jīng)INT4

量化后僅需2-4GB

存儲(chǔ)，完美適配終端設(shè)備內(nèi)存限制。DeepSeek

在開(kāi)源R1-Zero和R1兩個(gè)660B模型的同時(shí)，蒸餾了6個(gè)小模型開(kāi)源給社區(qū)，其中32B和70B模型在多項(xiàng)能力上可以對(duì)標(biāo)OpenAl

01-mini。-

開(kāi)

放

思

維

鏈(CoT,Chain

Thought)

輸出：DeepSeek-R1

的動(dòng)態(tài)思維鏈，支持?jǐn)?shù)萬(wàn)字級(jí)內(nèi)部推理過(guò)程，解決復(fù)雜問(wèn)題時(shí)能自主拆解步驟并驗(yàn)證邏輯，輸出可解釋性更強(qiáng)的結(jié)果。DeepSeek-R1

通過(guò)API對(duì)用戶(hù)開(kāi)放思維鏈輸出。DeepSeek的技術(shù)特點(diǎn)DeepSeek@@I)?@,?go %@@&—??@@@@ (Knowledge

Distillation)- \I'eZ&?—f4'8":/&5?+MIL (bib\ZE) as0i%Ys€'J?9tBI8rI9tL(?1tBB?

BB:It.* " J J ?DeepSeek 的技術(shù)特點(diǎn)總結(jié)——DeepSeek大模型的核心特點(diǎn)高性能+

低成本+

開(kāi)源+

國(guó)產(chǎn)PARTDeepSeek????@???é市場(chǎng)反饋-

1月27日，

DeepSeek

引發(fā)了股票市場(chǎng)的劇烈波動(dòng)。Al概念股大跌，歐美科技股市值蒸發(fā)1.2萬(wàn)億美元，歐美芯片制造商以及為Al和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。其中，英偉達(dá)收盤(pán)暴跌16.97,市值一個(gè)交易日蒸發(fā)5926.58億美元(約合人民幣4.3萬(wàn)億元),規(guī)模創(chuàng)美股史上最大。截止1月31日，

DeepSeek

App上線僅21天，日活躍用戶(hù)DAU2215萬(wàn)，達(dá)ChatGPT日活用戶(hù)的41

超過(guò)豆包(

1695

萬(wàn))。截至2月2日，

DeepSeek App迅速攀升至140個(gè)國(guó)家的蘋(píng)果App

Store下載排行榜首位，并在美國(guó)的Android

Play

Store中同樣占據(jù)榜首位置。DeepSeek

造成的影響大佬表態(tài)美國(guó)總統(tǒng)特朗普：

DeepSeek給我們(科技)行業(yè)敲響了警鐘，我們應(yīng)為了贏得勝利而努力競(jìng)爭(zhēng)。微

軟CEO

納德拉：在財(cái)報(bào)電話會(huì)議上稱(chēng)DeepSeek

“有一些真的創(chuàng)新”,并透露R1

模型已經(jīng)可以通過(guò)微軟的Al平臺(tái)獲取。-MetaCEO 扎克伯格：Meta將DeepSeek視為競(jìng)爭(zhēng)對(duì)手并正在學(xué)習(xí)。-ASML

CEO:DeepSeek這樣的低成本模型將帶來(lái)更多而非更少的Al芯片需求。-Anthropic 創(chuàng)始人：DeepSeek-V3是真正的創(chuàng)新所在。-人工智能專(zhuān)家吳恩達(dá)：中美AlI差距正在迅速縮小。-OpenAI CEO

山姆奧特曼：“在開(kāi)源上，OpenAl

站在了歷史的錯(cuò)誤一方”。《黑神話：悟空》的制作人馮驥：這是一項(xiàng)“國(guó)運(yùn)級(jí)別的科技成果”。DeepSeek

造成的影響重要影響1:改變了Al技術(shù)的發(fā)展方向-DeepSeek

通過(guò)算法創(chuàng)新和系統(tǒng)工程優(yōu)化，實(shí)現(xiàn)了與國(guó)際頂尖模型相當(dāng)?shù)男阅?，同時(shí)大幅降低了訓(xùn)練成本。-算力至上的傳統(tǒng)認(rèn)知被徹底打破。訓(xùn)練Al大模型，并不只有算力堆砌這一條路。-算法創(chuàng)新的重要性提升，不再僅僅聚焦于算力創(chuàng)新和數(shù)據(jù)創(chuàng)新。-通過(guò)算法的優(yōu)化，可以實(shí)現(xiàn)AI平權(quán)。DeepSeek

造成的影響重要影響2:改變了全球Al進(jìn)展的格局-DeepSeek 大模型的出現(xiàn)，對(duì)美國(guó)的人工智能領(lǐng)導(dǎo)地位構(gòu)成威脅，不僅引發(fā)了OpenAl

、Meta

、

谷歌等眾多大模型廠商恐慌，還引發(fā)了英偉達(dá)等Al芯片企業(yè)的股價(jià)大跌。-DeepSeek 表明中國(guó)與美國(guó)在AI大模型領(lǐng)域的差距正在快速縮小，甚至在某些方面實(shí)現(xiàn)了超越。-DeepSeek

大幅提升了國(guó)產(chǎn)AI產(chǎn)業(yè)鏈(芯片、終端、大模型、應(yīng)用)的信心。-DeepSeek-DeepSeek進(jìn)一步引發(fā)了資本市場(chǎng)對(duì)中國(guó)科技力量的重新評(píng)估，也影響了對(duì)中概股的重新估值。的成功，對(duì)其它發(fā)展中國(guó)家也有鼓舞作用，有助于Al全球化普及和應(yīng)用。DeepSeek

造成的影響重要影響3:全面加速Al端側(cè)應(yīng)用的落地-大模型的價(jià)格正在快速下降，極大推動(dòng)了AI在端側(cè)的應(yīng)用普及。-Al 推理首次真正突破硬件限制，部署成本從高端GPU

擴(kuò)展至消費(fèi)級(jí)GPU。-大模型開(kāi)始具有低參數(shù)量的特征，加上蒸餾技術(shù)的崛起，為本地化部署到Al終端運(yùn)行提供了可能。-本地部署為用戶(hù)提供了更高的靈活性和隱私保護(hù)，尤其適合對(duì)數(shù)據(jù)安全有較高要求的場(chǎng)景，有利于Al的進(jìn)一步普及。-算力需求會(huì)從預(yù)訓(xùn)練端轉(zhuǎn)移到推理端。推理需求的持續(xù)增長(zhǎng)，會(huì)帶動(dòng)端側(cè)Al算力芯片、終端等產(chǎn)業(yè)的增長(zhǎng)浪潮。-Al

端側(cè)應(yīng)用普及，會(huì)進(jìn)一步推動(dòng)各行各業(yè)的效率提升，加速催生了新的商業(yè)模式和產(chǎn)業(yè)形態(tài)。-垂直行業(yè)模型有可能迎來(lái)一波發(fā)展高潮。DeepSeek

造成的影響重要影響4:對(duì)Al算力供給關(guān)系造成沖擊-

短期來(lái)看，

市場(chǎng)和公眾普遍認(rèn)為DeepSeek

的出現(xiàn)，

降低了Al大模型對(duì)智算算力的需求(

英偉達(dá)股價(jià)下跌的原因)。-

但事實(shí)上，

從長(zhǎng)期來(lái)看，

根據(jù)杰文斯Jevons悖論(

第一次工業(yè)革命期間，

蒸汽機(jī)效率的提升，

使得市場(chǎng)上煤炭的消耗總量反而增加了),整個(gè)社會(huì)隨著Al應(yīng)用的加速普及，對(duì)算力的總需求反而會(huì)增加。DeepSeek

造成的影響DeepSeek造成的影響重要影響5:引領(lǐng)開(kāi)源力量的大跨步發(fā)展-DeepSeek

是開(kāi)源大模型的一次重大勝利。-DeepSeek

的成功，吸引了大量開(kāi)發(fā)者參與改進(jìn)和研究，推動(dòng)了開(kāi)源社區(qū)的發(fā)展。-DeekSeek

對(duì)閉源模型市場(chǎng)形成了沖擊，迫使閉源廠商降低價(jià)格或提升性能以維持市場(chǎng)份額。云廠商全面接入DeepSeek-華為云：2月1日，華為云聯(lián)合硅基流動(dòng)首發(fā)并上線基于昇騰云服務(wù)的

DeepSeek R1N3推理服務(wù)。-騰訊云：2月3日，騰訊云宣布

DeepSeek-R1

大模型一鍵部署至騰訊云

[HAI,

高性能應(yīng)用服務(wù)」上。阿里云：2月3日，阿里云宣布阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。-百度智能云：2月3日，百度智能云宣布百度智能云千帆平臺(tái)已正式上架

DeepSeek-R1

和

DeepSeek-V3

模型。火山引擎：2月4日，支持V3/R1等不同尺寸的DeepSeek

開(kāi)源模型，可在火山引擎機(jī)器學(xué)習(xí)平臺(tái)veMLP

中部署，也可在火山方舟中調(diào)用。-金山云：2月8日，已正式發(fā)布基于DeepSeek-R1 蒸餾模型的多種鏡像服務(wù)，用戶(hù)可在公有云

GPU

云服務(wù)器、GPU 裸金屬服務(wù)器分別搭建推理服務(wù)。微

軟Azure:1 月29日，,微軟也宣布DeepSeek R1已

在Azure

Foundry和

GitHub

上提供，開(kāi)發(fā)者將很快就能在Copilot+PC

上本地運(yùn)行

DeepSeek的

精簡(jiǎn)模型，以及在Windows

上龐大的GPU

生態(tài)系統(tǒng)中運(yùn)行。亞馬

遜AWS:1 月30日，亞馬遜表示，

DeepSeek-R1模型現(xiàn)在已可以在AmazonWebServices

上使用。DeepSeek

造成的影響運(yùn)營(yíng)商全面接入DeepSeek中

國(guó)

電

信

：天翼云自研“息壤”智算平臺(tái)完成國(guó)產(chǎn)算力與DeepSeek-R1N3

系列大模型的深度適配優(yōu)化，成為國(guó)內(nèi)首家實(shí)現(xiàn)DeepSeek

模型全棧國(guó)產(chǎn)化推理服務(wù)落地的運(yùn)營(yíng)商級(jí)云平臺(tái)；中

國(guó)

移

動(dòng)

：移動(dòng)云全面上線DeepSeek,

全版本覆蓋、全尺寸適配、全功能暢用。現(xiàn)已全面兼容DeepSeek

所有主流版本，靈活應(yīng)對(duì)多樣化業(yè)務(wù)場(chǎng)景需求；中

國(guó)

聯(lián)

通

：聯(lián)通云與DeepSeek

實(shí)現(xiàn)多場(chǎng)景深度對(duì)接。聯(lián)通云已基于“星羅”平臺(tái)實(shí)現(xiàn)多規(guī)格DeepSeek-R1模型適配，并在全國(guó)270多個(gè)骨干云池預(yù)部署，接入多種產(chǎn)品場(chǎng)景。DeepSeek

造成的影響生態(tài)鏈適配-

目前已有多家國(guó)產(chǎn)Al算力廠商宣布適配DeepSeek,

比如華為昇騰、壁仞科技、天數(shù)智芯、摩爾線程、沐曦等。-2月4日，天數(shù)智芯與Gitee

Al聯(lián)合發(fā)布消息，在雙方的高效協(xié)作下，僅用時(shí)一天，便成功完成了與DeepSeekR1的適配工作，并且已正式上線多款大模型服務(wù)。-2月4日，華為表示，潞晨科技攜手昇騰，聯(lián)合發(fā)布基于昇騰算力的DeepSeek R1系列推理API及云鏡像服務(wù)。-2月6日，吉利汽車(chē)與DeepSeek完成模型融合，計(jì)劃通過(guò)蒸餾訓(xùn)練優(yōu)化車(chē)載Al功能(如意圖理解、主動(dòng)服務(wù)等),并計(jì)劃在智能座艙、自動(dòng)駕駛等領(lǐng)域應(yīng)用。-2月7日，嵐圖汽車(chē)則宣布首款量產(chǎn)車(chē)型“知音”將搭載DeepSeek

模型，支持Al多語(yǔ)義指令識(shí)別等功能。-2月16日，百度搜索和文心智能體平臺(tái)宣布將全面接入DeepSeek

和文心大模型最新的深度搜索功能。-2月17日，有媒體發(fā)現(xiàn)，微信已為搜索功能接入DeepSeek-R1

模型，處于小范圍灰度測(cè)試中。一....DeepSeek

造成的影響PARTDeepSeek@@@???DeepSeek 的使用入口-官

方官

網(wǎng)

：/官

方API平臺(tái)：/-第三

方各大應(yīng)用商店，下載官方App第三方工具接入-

自己搭建部署私有化部署(本地部署)DeepSeek

的使用方法DeepSeek@@@/2@o

DeepSeek- @@: DeepSeek@AI@@@@,

DRAG

(@@@@

)

DeepSeek

@gg@

tEIi2

IIEsa

(xxezo24Y7? zêtass?nsa1sygrna2a?r°aa.@@

DeepSeek,

@@gJ{

!場(chǎng)景細(xì)分場(chǎng)景再細(xì)分場(chǎng)景文本生成文本創(chuàng)作文章寫(xiě)作、詩(shī)歌創(chuàng)作，文案生成，劇本設(shè)計(jì).....摘要與改寫(xiě)生成論文摘要，外文翻譯

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

DeepSeek基礎(chǔ)知識(shí)手冊(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

DeepSeek基礎(chǔ)知識(shí)手冊(cè)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔