DeepSeek基礎(chǔ)知識(shí)手冊(cè)_第1頁(yè)
DeepSeek基礎(chǔ)知識(shí)手冊(cè)_第2頁(yè)
DeepSeek基礎(chǔ)知識(shí)手冊(cè)_第3頁(yè)
DeepSeek基礎(chǔ)知識(shí)手冊(cè)_第4頁(yè)
DeepSeek基礎(chǔ)知識(shí)手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

C??'NTENTSDeepSeeDeepSeeDeepSeeDeepSee*y?,PARTDeepSeek@??@????,什么是DeepSeek-

DeepSeek

公司:杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。-DeepSeek

大模型:DeepSeek

公司推出的一系列大模型的統(tǒng)稱(chēng)。DeepSeek

的背景知識(shí)DeepSeek

公司-成立時(shí)間:2023年7月;-

創(chuàng)始人:

梁文峰(

幻方量化的聯(lián)合創(chuàng)始人);-所在城市:浙江省杭州市拱墅區(qū);-公司口號(hào):探索未至之境;技術(shù)的研發(fā)和應(yīng)用;-公司業(yè)務(wù)方向:專(zhuān)注于通用人工智能

(AGI)-

“杭州六小龍”之一;-團(tuán)隊(duì)成員大多來(lái)自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國(guó)內(nèi)頂尖高校。DeepSeek

的背景知識(shí)梁文峰-

出生年份:1985年;-籍貫:廣東省湛江市吳川市覃巴鎮(zhèn)米歷嶺村;學(xué)歷背景:2002年,考入浙江大學(xué)電子工程系電子信息工程專(zhuān)業(yè);2007年,考上浙江大學(xué)信息與通信工程專(zhuān)業(yè)研究生;2010年,獲得碩士學(xué)位;工作背景:2008年,開(kāi)始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索量化交易;2015年,創(chuàng)立了幻方科技(杭州幻方科技有限公司);2019年,其資金管理規(guī)模突破百億元;2023年7月,幻方量化宣布成立大模型公司DeepSeek, 進(jìn)入通用人工智能

(AGI) 領(lǐng)域。DeepSeek

的背景知識(shí)DeepSeek

大模型發(fā)布時(shí)間表-2024年01月05日,正式發(fā)布首個(gè)大模型DeepSeek LLM;-2024年01月25日,正式發(fā)布DeepSeek-Coder, 由一系列代碼語(yǔ)言模型組成;-2024年02月05日,正式發(fā)布DeepSeek-Math, 以

DeepSeek-Coder V1.57b為基礎(chǔ);-2024年03月11日,正式發(fā)布DeepSeek-VL, 是一個(gè)開(kāi)源的視覺(jué)-語(yǔ)言

(VL)

模型;-2024年05月07日,正式發(fā)布第二代開(kāi)源MoE

模型DeepSeek-V2;-2024年06月17日,正式發(fā)布DeepSeek-Coder-V2,

支持的編程語(yǔ)言從86種擴(kuò)展到338種;-2024年09月06日,合并DeepSeek-Coder-V2

和DeepSeek-V2-Chat

兩個(gè)模型,升級(jí)推出DeepSeek-V2.5;-2024年11月20日,正式發(fā)布DeepSeek-R1-Lite預(yù)覽版;-2024年12月13日,正式發(fā)布DeepSeek-VL2,用于高級(jí)多模態(tài)理解的專(zhuān)家混合視覺(jué)語(yǔ)言模型;-2024年12月26日,正式發(fā)布DeepSeek-V3, 并同步開(kāi)源模型權(quán)重;-2025年01月20日,正式發(fā)布DeepSeek-R1、DeepSeek-R1-Zero, 并同步開(kāi)源模型權(quán)重。DeepSeek

的背景知識(shí)掀起本次DeepSeek熱潮的,主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroDeepSeek的背景知識(shí)PARTDeepSeek@?§Ig????<.,DeepSeek-V3 的基本情況-DeepSeek-V3

是一款高性能、低成本的開(kāi)源通用語(yǔ)言模型。-

場(chǎng)

:高性能對(duì)話、復(fù)雜任務(wù)處理和高精度場(chǎng)景,例如長(zhǎng)文檔分析、多模態(tài)推理、科研計(jì)算等。- 設(shè)計(jì)目標(biāo):進(jìn)一步提升開(kāi)源模型的能力,縮小與閉源模型的差距,同時(shí)保持訓(xùn)練成本的經(jīng)濟(jì)性。參

數(shù)

規(guī)

:共有6710億個(gè)參數(shù)。但每次處理一個(gè)token時(shí)只激活370億個(gè)參數(shù)。這種設(shè)計(jì)降低了計(jì)算成本。訓(xùn)

:總計(jì)278.8萬(wàn)H800

GPU小時(shí)

(Meta

的Llama3.1需要3080萬(wàn)GPU小時(shí))。假設(shè)每小時(shí)2美元,費(fèi)用約557.6萬(wàn)美元(約為GPT-4的二十分之一)。價(jià)

費(fèi)

:模型API服務(wù)定價(jià)為每百萬(wàn)輸入tokens

0.5元(

緩存命中)

/

2

元(

緩存未命中)

,

每百萬(wàn)輸出tokens

8元。在性能實(shí)現(xiàn)領(lǐng)先的同時(shí),定價(jià)大幅低于市面上所有模型,性?xún)r(jià)比優(yōu)勢(shì)明顯。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3

的性能表現(xiàn)-

在數(shù)學(xué)推理

(GSM8K)、

代碼生成

(HumanEval)、

常識(shí)推理

(MMLU)

等基準(zhǔn)測(cè)試中達(dá)到領(lǐng)先水平。-在公開(kāi)評(píng)測(cè)集(如

MMLU、BBH、DROP)

中表現(xiàn)優(yōu)異,尤其在復(fù)雜推理任務(wù)上接近或超越GPT-4

Turbo等頂尖模型。-多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B 和

Llama-3.1-405BGPT-40

以及Claude-3.5-Sonnet不相上下。-

在知識(shí)類(lèi)任務(wù)

(

MMLU,

MMLU-

Pro,

GPQA,

SimpleQA)此前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022(Anthropic等其它開(kāi)源模型,并在性能上和世界頂尖的閉源模型上的水平相比前代DeepSeek-V2.5顯著提升,接近公司于2

0

2

4

年1

0

月發(fā)布)

。-通過(guò)算法和工程上的創(chuàng)新,將生成吐字速度從20TPS(Transactions

Per

Second每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,

相比V2.5

模型實(shí)現(xiàn)了3倍的提升,可以帶來(lái)更加流暢的使用體驗(yàn)。DeepSeek 的技術(shù)特點(diǎn)DeepSeek-V3 的技術(shù)特點(diǎn)采

了多頭潛在注意力

(MLA)

和DeepSeekMoE

架構(gòu),實(shí)現(xiàn)高效推理,提升成本效益。開(kāi)創(chuàng)了

種無(wú)輔助損失

(auxiliary-loss-free)

策略用于負(fù)載平衡,并設(shè)置了多token預(yù)測(cè)訓(xùn)練目標(biāo),以提升性能。-在訓(xùn)練效率上,運(yùn)用了FP8

混合精度訓(xùn)練,讓顯存得到了優(yōu)化,極大提升了計(jì)算性能與訓(xùn)練穩(wěn)定性。-支持千卡級(jí)訓(xùn)練,滿足超大規(guī)模集群分布式訓(xùn)練需求。采用DualPipe

(雙向流水線)算法和通信優(yōu)化,實(shí)現(xiàn)計(jì)算-通信近乎完全重疊。-訓(xùn)練分為三個(gè)階段:預(yù)訓(xùn)練

(Pre-Training)、

長(zhǎng)上下文擴(kuò)展

(Long

Context

Extension)

和后訓(xùn)練

(Post-Training)。-推理環(huán)節(jié)通過(guò)獨(dú)特的P/D分離策略和NanoFlow

的雙流推理模式,提升了系統(tǒng)的資源利用率。DeepSeek的技術(shù)特點(diǎn)DeepSeek@)gI)t????*.,o %@@?g

?@,<,@@R?jj

(MoE)OOOOOOOOOutputüddenh,RouterTop-fftRoutedExpertShared

ExpertOOOOOOOOinputHidden

u\%@

:

DeepSeekt

QDeepSeek@}gI)t(g??*.,a %@@gt—@§$@]gfg@3g

(MLA)Mi.A?^1.°.I?03tBZA

(%B.°.i3dW'*iZ/3d7)ZPOIt4tI?B2iZtZ8IZA.OutputHiddenu,

oooo@@ CachedDuring

InferenceooooIVtulti-Head

AtténtionLatentcK*@

@

-

@i

iOO OO Latent

c,’InputHidden

h?

OOOO OOOO@U@

:

DeepSeekj

@a

DeepSeek@?I}?@,??o %@@?

@?@@@I}

(MTP)@: DeepSeekì?Q關(guān)鍵技術(shù)——FP8

精度訓(xùn)練-DeepSeek-V3

將大部分計(jì)算密集型操作(如矩陣乘法)使用FP8

精度進(jìn)行,同時(shí)保留一些關(guān)鍵操作(如嵌入層、輸出頭、歸一化操作等)的高精度

(BF16

FP32), 以確保訓(xùn)練的數(shù)值穩(wěn)定性。-在此基礎(chǔ)上,進(jìn)一步疊加細(xì)粒度量化、高精度累加、在線量化、低精度存儲(chǔ)和通信等技術(shù)方法,成功實(shí)現(xiàn)了高效的

FP8精度訓(xùn)練。-FP8

精度訓(xùn)練不僅顯著提高了訓(xùn)練速度和效率,還保持了模型的高性能。DeepSeek 的技術(shù)特點(diǎn)DeepSeek

的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——雙向流水線

(DualPipe)核

的GPU上

進(jìn)

訓(xùn)

,

過(guò)

調(diào)

來(lái)

時(shí)

處理

。具

來(lái)

說(shuō)

,

時(shí)

(micro-batches), 從

計(jì)

資源

開(kāi)

銷(xiāo)

實(shí)

現(xiàn)

訓(xùn)

,

規(guī)

訓(xùn)

強(qiáng)

。DeepSeek

的技術(shù)特點(diǎn)關(guān)鍵技術(shù)——跨節(jié)點(diǎn)通信技術(shù)-通過(guò)高效的跨節(jié)點(diǎn)全對(duì)全通信內(nèi)核、通信和計(jì)算的重疊、定制化通信內(nèi)核、低精度通信以及對(duì)未來(lái)硬件設(shè)計(jì)的建議,顯著提高了跨節(jié)點(diǎn)通信的效率。-不僅減少了通信開(kāi)銷(xiāo),還提高了整體訓(xùn)練效率,為大規(guī)模分布式訓(xùn)練提供了強(qiáng)大的支持。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情況-DeepSeek-R1 和DeepSeek-R1-Zero 都是開(kāi)源推理大模型。-

兩者均基于DeepSeek-V3

的混合專(zhuān)家

(MoE)

架構(gòu),總參數(shù)量為6710億,但每個(gè)推理請(qǐng)求僅激活約10

的參數(shù)以降低計(jì)算成本。主

區(qū)

:R1-Zero:

完全依賴(lài)強(qiáng)化學(xué)習(xí)

(Reinforcement

Learning,RL)訓(xùn)練,跳過(guò)監(jiān)督微調(diào)

(Supervised

Fine-Tuning,SFT),

通過(guò)組相對(duì)策略?xún)?yōu)化(Group

Relative

Policy

Optimization,GRPO)算法和組內(nèi)競(jìng)爭(zhēng)機(jī)制優(yōu)化推理能力,主要目的是探索和驗(yàn)證純RL

的可行性和潛力。R1-Zero除了證明純強(qiáng)化學(xué)習(xí)的有效性,亦有“頓悟”現(xiàn)象的出現(xiàn),即在模型自發(fā)的推理策略博弈中學(xué)習(xí)到的新的、更有效的推理策略。

R1:

在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)

(SFT)

與強(qiáng)化學(xué)習(xí)

(RL),

提升輸出的可讀性和穩(wěn)定性,優(yōu)化輸出質(zhì)量,對(duì)性能和實(shí)用性進(jìn)行平衡,適用于實(shí)際場(chǎng)景。DeepSeek 的技術(shù)特點(diǎn)精調(diào)(監(jiān)督學(xué)習(xí))跳過(guò)了監(jiān)督微調(diào)

(SFT)

的過(guò)程,直接將強(qiáng)化學(xué)習(xí)

(RL)

應(yīng)用于基礎(chǔ)模型,從而發(fā)展出DeepSeek-R1-Zero

(會(huì)推理,且出現(xiàn)“頓悟時(shí)刻”)但R1

Zero有些"毛病",比如可讀性差、語(yǔ)言混合等,所以團(tuán)隊(duì)開(kāi)始探索R1為了解決R1-Zero的“毛病”,DeepSeek

團(tuán)隊(duì)加了兩招:冷啟動(dòng)數(shù)據(jù):

先給DeepSeek

V3

Base模型看幾千條人工寫(xiě)的高質(zhì)量推理示例(比如詳細(xì)的解題步驟),讓它“開(kāi)竅”;多階段訓(xùn)練:先用冷啟動(dòng)數(shù)據(jù)微調(diào)模型,再用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化,最后結(jié)合其他任務(wù)的數(shù)據(jù)(比如寫(xiě)作、翻譯)再訓(xùn)練,讓模型既聰明又“

會(huì)說(shuō)人話”

。DeepSeek-R1

和DeepSeek-R1-Zero 的基本情況DeepSeek

V3 BaseDeepSeekR1

ZeroDeepSeek R1DeepSeek 的技術(shù)特點(diǎn)圖片來(lái)源:《DeepSeek自學(xué)手冊(cè)》精調(diào)(強(qiáng)化學(xué)習(xí))R1R1-Zero主要特點(diǎn)在R1-Zero基礎(chǔ)上引入冷啟動(dòng)數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)(SFT)與強(qiáng)化學(xué)習(xí)(

RL)完全依賴(lài)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,跳過(guò)監(jiān)督微調(diào)(SFT)推理能力穩(wěn)定且全面潛力大但波動(dòng)性強(qiáng)可讀性語(yǔ)言流暢、結(jié)構(gòu)清晰語(yǔ)言混雜、重復(fù)率高泛化性覆蓋通用任務(wù)(問(wèn)答、寫(xiě)作等)局限于數(shù)學(xué)、代碼等強(qiáng)驗(yàn)證領(lǐng)域訓(xùn)練效率冷啟動(dòng)加速訓(xùn)練,避免局部最優(yōu)收斂時(shí)間長(zhǎng)(無(wú)先驗(yàn)引導(dǎo))應(yīng)用場(chǎng)景實(shí)際場(chǎng)景技術(shù)驗(yàn)證DeepSeek 的技術(shù)特點(diǎn)DeepSeek-R1

和DeepSeek-R1-Zero

的對(duì)比DeepSeek-R1OpenAl

o1AIME

202479.8%79.2%MATH-50097.3%96.4%Codeforces20292061MMLU90.8%91.8%DeepSeek-R1

的性能表現(xiàn)-DeepSeek-R1

作為開(kāi)源模型,在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能能夠比肩OpenAl01

正式版。-在國(guó)外大模型排名榜Chatbot

Arena上

,DeepSeek-R1的基準(zhǔn)測(cè)試排名已經(jīng)升至全類(lèi)別大模型第三,與OpenAl

的ChatGPT-40

最新版并列,并在風(fēng)格控制類(lèi)模型

(StyleCtrl) 分類(lèi)中與OpenAl

的01模型并列第一。DeepSeek 的技術(shù)特點(diǎn)基準(zhǔn)測(cè)試成績(jī)對(duì)比DeepSeek-R1 的技術(shù)特點(diǎn)強(qiáng)

學(xué)

習(xí)

:DeepSeek-R1的訓(xùn)練方法是最大亮點(diǎn)。通過(guò)重新設(shè)計(jì)訓(xùn)練流程、以少量SFT數(shù)據(jù)+多輪RL強(qiáng)化學(xué)習(xí)的辦法(基礎(chǔ)模型

→RL→微調(diào)迭代),既提高了模型準(zhǔn)確性,也顯著降低了內(nèi)存占用和計(jì)算開(kāi)銷(xiāo)。獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì):

DeepSeek-R1采用了準(zhǔn)確性獎(jiǎng)勵(lì)、格式獎(jiǎng)勵(lì)、語(yǔ)言一致性獎(jiǎng)勵(lì)等機(jī)制,確保了模型在推理任務(wù)中的高效性和可讀性。訓(xùn)練模板與結(jié)構(gòu)化輸出:DeepSeek-R1

采用“思考-回答”雙階段訓(xùn)練模板,模型需先展示推理過(guò)程,再提供最終答案,推理過(guò)程可追蹤,為獎(jiǎng)勵(lì)計(jì)算提供了明確基準(zhǔn)。蒸餾技術(shù):DeepSeek-R1

遵循MIT

License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助R1訓(xùn)練其他模型。

DeepSeek-R1

系列提供1.5B至70B

參數(shù)蒸餾版本,其中7B模型經(jīng)INT4

量化后僅需2-4GB

存儲(chǔ),完美適配終端設(shè)備內(nèi)存限制。DeepSeek

在開(kāi)源R1-Zero和R1兩個(gè)660B模型的同時(shí),蒸餾了6個(gè)小模型開(kāi)源給社區(qū),其中32B和70B模型在多項(xiàng)能力上可以對(duì)標(biāo)OpenAl

01-mini。-

開(kāi)

鏈(CoT,Chain

of

Thought)

輸出:DeepSeek-R1

的動(dòng)態(tài)思維鏈,支持?jǐn)?shù)萬(wàn)字級(jí)內(nèi)部推理過(guò)程,解決復(fù)雜問(wèn)題時(shí)能自主拆解步驟并驗(yàn)證邏輯,輸出可解釋性更強(qiáng)的結(jié)果。DeepSeek-R1

通過(guò)API對(duì)用戶(hù)開(kāi)放思維鏈輸出。DeepSeek的技術(shù)特點(diǎn)DeepSeek@@I)?@,?go %@@&—??@@@@ (Knowledge

Distillation)- \I'eZ&?—f4'8":/&5?+MIL (bib\ZE) as0i%Ys€'J?9tBI8rI9tL(?1tBB?

BB:It.* " J J ?DeepSeek 的技術(shù)特點(diǎn)總結(jié)——DeepSeek大模型的核心特點(diǎn)高性能+

低成本+

開(kāi)源+

國(guó)產(chǎn)PARTDeepSeek????@???é市場(chǎng)反饋-

1月27日,

DeepSeek

引發(fā)了股票市場(chǎng)的劇烈波動(dòng)。Al概念股大跌,歐美科技股市值蒸發(fā)1.2萬(wàn)億美元,歐美芯片制造商以及為Al和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。其中,英偉達(dá)收盤(pán)暴跌16.97,市值一個(gè)交易日蒸發(fā)5926.58億美元(約合人民幣4.3萬(wàn)億元),規(guī)模創(chuàng)美股史上最大。截止1月31日,

DeepSeek

App上線僅21天,日活躍用戶(hù)DAU2215萬(wàn),達(dá)ChatGPT日活用戶(hù)的41

.

6

,

超過(guò)豆包(

1695

萬(wàn))。截至2月2日,

DeepSeek App迅速攀升至140個(gè)國(guó)家的蘋(píng)果App

Store下載排行榜首位,并在美國(guó)的Android

Play

Store中同樣占據(jù)榜首位置。DeepSeek

造成的影響大佬表態(tài)美國(guó)總統(tǒng)特朗普:

DeepSeek給我們(科技)行業(yè)敲響了警鐘,我們應(yīng)為了贏得勝利而努力競(jìng)爭(zhēng)。微

軟CEO

納德拉:在財(cái)報(bào)電話會(huì)議上稱(chēng)DeepSeek

“有一些真的創(chuàng)新”,并透露R1

模型已經(jīng)可以通過(guò)微軟的Al平臺(tái)獲取。-MetaCEO 扎克伯格:Meta將DeepSeek視為競(jìng)爭(zhēng)對(duì)手并正在學(xué)習(xí)。-ASML

CEO:DeepSeek這樣的低成本模型將帶來(lái)更多而非更少的Al芯片需求。-Anthropic 創(chuàng)始人:DeepSeek-V3是真正的創(chuàng)新所在。-人工智能專(zhuān)家吳恩達(dá):中美AlI差距正在迅速縮小。-OpenAI CEO

山姆奧特曼:“在開(kāi)源上,OpenAl

站在了歷史的錯(cuò)誤一方”。《黑神話:悟空》的制作人馮驥:這是一項(xiàng)“國(guó)運(yùn)級(jí)別的科技成果”。DeepSeek

造成的影響重要影響1:改變了Al技術(shù)的發(fā)展方向-DeepSeek

通過(guò)算法創(chuàng)新和系統(tǒng)工程優(yōu)化,實(shí)現(xiàn)了與國(guó)際頂尖模型相當(dāng)?shù)男阅?,同時(shí)大幅降低了訓(xùn)練成本。-算力至上的傳統(tǒng)認(rèn)知被徹底打破。訓(xùn)練Al大模型,并不只有算力堆砌這一條路。-算法創(chuàng)新的重要性提升,不再僅僅聚焦于算力創(chuàng)新和數(shù)據(jù)創(chuàng)新。-通過(guò)算法的優(yōu)化,可以實(shí)現(xiàn)AI平權(quán)。DeepSeek

造成的影響重要影響2:改變了全球Al進(jìn)展的格局-DeepSeek 大模型的出現(xiàn),對(duì)美國(guó)的人工智能領(lǐng)導(dǎo)地位構(gòu)成威脅,不僅引發(fā)了OpenAl

、Meta

、

谷歌等眾多大模型廠商恐慌,還引發(fā)了英偉達(dá)等Al芯片企業(yè)的股價(jià)大跌。-DeepSeek 表明中國(guó)與美國(guó)在AI大模型領(lǐng)域的差距正在快速縮小,甚至在某些方面實(shí)現(xiàn)了超越。-DeepSeek

大幅提升了國(guó)產(chǎn)AI產(chǎn)業(yè)鏈(芯片、終端、大模型、應(yīng)用)的信心。-DeepSeek-DeepSeek進(jìn)一步引發(fā)了資本市場(chǎng)對(duì)中國(guó)科技力量的重新評(píng)估,也影響了對(duì)中概股的重新估值。的成功,對(duì)其它發(fā)展中國(guó)家也有鼓舞作用,有助于Al全球化普及和應(yīng)用。DeepSeek

造成的影響重要影響3:全面加速Al端側(cè)應(yīng)用的落地-大模型的價(jià)格正在快速下降,極大推動(dòng)了AI在端側(cè)的應(yīng)用普及。-Al 推理首次真正突破硬件限制,部署成本從高端GPU

擴(kuò)展至消費(fèi)級(jí)GPU。-大模型開(kāi)始具有低參數(shù)量的特征,加上蒸餾技術(shù)的崛起,為本地化部署到Al終端運(yùn)行提供了可能。-本地部署為用戶(hù)提供了更高的靈活性和隱私保護(hù),尤其適合對(duì)數(shù)據(jù)安全有較高要求的場(chǎng)景,有利于Al的進(jìn)一步普及。-算力需求會(huì)從預(yù)訓(xùn)練端轉(zhuǎn)移到推理端。推理需求的持續(xù)增長(zhǎng),會(huì)帶動(dòng)端側(cè)Al算力芯片、終端等產(chǎn)業(yè)的增長(zhǎng)浪潮。-Al

端側(cè)應(yīng)用普及,會(huì)進(jìn)一步推動(dòng)各行各業(yè)的效率提升,加速催生了新的商業(yè)模式和產(chǎn)業(yè)形態(tài)。-垂直行業(yè)模型有可能迎來(lái)一波發(fā)展高潮。DeepSeek

造成的影響重要影響4:對(duì)Al算力供給關(guān)系造成沖擊-

短期來(lái)看,

市場(chǎng)和公眾普遍認(rèn)為DeepSeek

的出現(xiàn),

降低了Al大模型對(duì)智算算力的需求(

英偉達(dá)股價(jià)下跌的原因)。-

但事實(shí)上,

從長(zhǎng)期來(lái)看,

根據(jù)杰文斯Jevons悖論(

第一次工業(yè)革命期間,

蒸汽機(jī)效率的提升,

使得市場(chǎng)上煤炭的消耗總量反而增加了),整個(gè)社會(huì)隨著Al應(yīng)用的加速普及,對(duì)算力的總需求反而會(huì)增加。DeepSeek

造成的影響DeepSeek造成的影響重要影響5:引領(lǐng)開(kāi)源力量的大跨步發(fā)展-DeepSeek

是開(kāi)源大模型的一次重大勝利。-DeepSeek

的成功,吸引了大量開(kāi)發(fā)者參與改進(jìn)和研究,推動(dòng)了開(kāi)源社區(qū)的發(fā)展。-DeekSeek

對(duì)閉源模型市場(chǎng)形成了沖擊,迫使閉源廠商降低價(jià)格或提升性能以維持市場(chǎng)份額。云廠商全面接入DeepSeek-華為云:2月1日,華為云聯(lián)合硅基流動(dòng)首發(fā)并上線基于昇騰云服務(wù)的

DeepSeek R1N3推理服務(wù)。-騰訊云:2月3日,騰訊云宣布

DeepSeek-R1

大模型一鍵部署至騰訊云

[HAI,

高性能應(yīng)用服務(wù)」上。阿里云:2月3日,阿里云宣布阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。-百度智能云:2月3日,百度智能云宣布百度智能云千帆平臺(tái)已正式上架

DeepSeek-R1

DeepSeek-V3

模型。火山引擎:2月4日,支持V3/R1等不同尺寸的DeepSeek

開(kāi)源模型,可在火山引擎機(jī)器學(xué)習(xí)平臺(tái)veMLP

中部署,也可在火山方舟中調(diào)用。-金山云:2月8日,已正式發(fā)布基于DeepSeek-R1 蒸餾模型的多種鏡像服務(wù),用戶(hù)可在公有云

GPU

云服務(wù)器、GPU 裸金屬服務(wù)器分別搭建推理服務(wù)。微

軟Azure:1 月29日,,微軟也宣布DeepSeek R1已

在Azure

Al

Foundry和

GitHub

上提供,開(kāi)發(fā)者將很快就能在Copilot+PC

上本地運(yùn)行

DeepSeek的

R1

精簡(jiǎn)模型,以及在Windows

上龐大的GPU

生態(tài)系統(tǒng)中運(yùn)行。亞馬

遜AWS:1 月30日,亞馬遜表示,

DeepSeek-R1模型現(xiàn)在已可以在AmazonWebServices

上使用。DeepSeek

造成的影響運(yùn)營(yíng)商全面接入DeepSeek中

國(guó)

:天翼云自研“息壤”智算平臺(tái)完成國(guó)產(chǎn)算力與DeepSeek-R1N3

系列大模型的深度適配優(yōu)化,成為國(guó)內(nèi)首家實(shí)現(xiàn)DeepSeek

模型全棧國(guó)產(chǎn)化推理服務(wù)落地的運(yùn)營(yíng)商級(jí)云平臺(tái);中

國(guó)

動(dòng)

:移動(dòng)云全面上線DeepSeek,

全版本覆蓋、全尺寸適配、全功能暢用。現(xiàn)已全面兼容DeepSeek

所有主流版本,靈活應(yīng)對(duì)多樣化業(yè)務(wù)場(chǎng)景需求;中

國(guó)

聯(lián)

:聯(lián)通云與DeepSeek

實(shí)現(xiàn)多場(chǎng)景深度對(duì)接。聯(lián)通云已基于“星羅”平臺(tái)實(shí)現(xiàn)多規(guī)格DeepSeek-R1模型適配,并在全國(guó)270多個(gè)骨干云池預(yù)部署,接入多種產(chǎn)品場(chǎng)景。DeepSeek

造成的影響生態(tài)鏈適配-

目前已有多家國(guó)產(chǎn)Al算力廠商宣布適配DeepSeek,

比如華為昇騰、壁仞科技、天數(shù)智芯、摩爾線程、沐曦等。-2月4日,天數(shù)智芯與Gitee

Al聯(lián)合發(fā)布消息,在雙方的高效協(xié)作下,僅用時(shí)一天,便成功完成了與DeepSeekR1的適配工作,并且已正式上線多款大模型服務(wù)。-2月4日,華為表示,潞晨科技攜手昇騰,聯(lián)合發(fā)布基于昇騰算力的DeepSeek R1系列推理API及云鏡像服務(wù)。-2月6日,吉利汽車(chē)與DeepSeek完成模型融合,計(jì)劃通過(guò)蒸餾訓(xùn)練優(yōu)化車(chē)載Al功能(如意圖理解、主動(dòng)服務(wù)等),并計(jì)劃在智能座艙、自動(dòng)駕駛等領(lǐng)域應(yīng)用。-2月7日,嵐圖汽車(chē)則宣布首款量產(chǎn)車(chē)型“知音”將搭載DeepSeek

模型,支持Al多語(yǔ)義指令識(shí)別等功能。-2月16日,百度搜索和文心智能體平臺(tái)宣布將全面接入DeepSeek

和文心大模型最新的深度搜索功能。-2月17日,有媒體發(fā)現(xiàn),微信已為搜索功能接入DeepSeek-R1

模型,處于小范圍灰度測(cè)試中。一....DeepSeek

造成的影響PARTDeepSeek@@@???DeepSeek 的使用入口-官

方官

網(wǎng)

:/官

方API平臺(tái):/-第三

方各大應(yīng)用商店,下載官方App第三方工具接入-

自己搭建部署私有化部署(本地部署)DeepSeek

的使用方法DeepSeek@@@/2@o

DeepSeek- @@: DeepSeek@AI@@@@,

DRAG

(@@@@

)

.

@

DeepSeek

@gg@

tEIi2

IIEsa

(xxezo24Y7? zêtass?nsa1sygrna2a?r°aa.@@

DeepSeek,

@@gJ{

!場(chǎng)景細(xì)分場(chǎng)景再細(xì)分場(chǎng)景文本生成文本創(chuàng)作文章寫(xiě)作、詩(shī)歌創(chuàng)作,文案生成,劇本設(shè)計(jì).....摘要與改寫(xiě)生成論文摘要,外文翻譯

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論