2024人工知道大模型AI DeepSee V3技術(shù)報(bào)告_第1頁(yè)
2024人工知道大模型AI DeepSee V3技術(shù)報(bào)告_第2頁(yè)
2024人工知道大模型AI DeepSee V3技術(shù)報(bào)告_第3頁(yè)
2024人工知道大模型AI DeepSee V3技術(shù)報(bào)告_第4頁(yè)
2024人工知道大模型AI DeepSee V3技術(shù)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024人工知道大模型AIDeepSeeV3技術(shù)報(bào)告DeepSeekV3DeepSeekV3DeepSeekV3DeepSeekV3

具有無(wú)輔助損失負(fù)載?衡的DeepSeekMoE

無(wú)輔助損失?

按批次負(fù)載?衡VS.按序列負(fù)載?

BB.1FP8BF16

B.2關(guān)于分塊量化的討論

(Anthropic2024Google2024OpenAI2024a)(AGI力縮小與閉源模型的差A(yù)I2024acGuo2024)bTouvron2023a(Qwen2023b2023Mistral,DeepSeekV3專(zhuān)家(MoE)模型671B個(gè)參數(shù)token激活37B個(gè)參數(shù)。DeepSeekV3DeepSeekV32022KalamkarNarang2017Peng2023b)20242022Rouhani2023a)FP8計(jì)算和存儲(chǔ)的支持GPU內(nèi)存使用量32K 2664 2788 不到兩個(gè)月的時(shí)間內(nèi)完成2664KGPU小時(shí)5KFP8(CoT)模型中提取推理能力DeepSeekR1LLMV3(175.9GPQA59.1(2DeepSeekV(SimpleQASimpleQA(1DeepSeekVMATH?500o1preview(2LiveCodeBenchSonnet?3.5在本文的其余部分DeepSeek?V3模型架構(gòu)(2)FP8訓(xùn)練的支持我們總結(jié)了這項(xiàng)工作DeepSeek?V3(6)。DeepSeekV32024cDeepSeek?V3的基本架構(gòu)仍然在Transformer(Vaswanietal.,2017)框架內(nèi)理和經(jīng)濟(jì)訓(xùn)練,DeepSeek?V3MLADeepSeekMoEDeepSeek?V2DeepSeek?V2

;

;

al.2024aDeepSeekV3DeepSeekV3對(duì)注意力鍵和值進(jìn)行低秩聯(lián)合壓縮[k,1;k,2;...;

c

[v,1;v,2;...;

∈ (RoPEal.2024);RoPE(·)表示應(yīng)用RoPE矩陣的運(yùn)算;[·;·]表示連接MLA等人2017)

∈ c

[q,1;q,2;...;

c

[q,1;q,2;...;

問(wèn),′是查詢(xún)的壓縮潛在向量;′

′×

∈ ∈ ×

問(wèn)

u=[o,1;o,2;...;

其中∈R (FFN)DeepSeekV3al.2021DeepSeekMoE

=u+

(u)+

,∈Topk({, },

0

令牌到專(zhuān)家的親和力;e是第個(gè)路由專(zhuān)家的質(zhì)心向量;Topk(·,)表示DeepSeekV320172021al.2021模型性能(Wangetal.2024a)?衡之間實(shí)現(xiàn)更好的權(quán)衡和模型性能?衡策略(Wangetal.,

確定前K′

+∈Topk({,+ },0否則

DeepSeekV3

=

∈Topk({,

××DeepSeekV3DeepSeekV3MTPMTP(2024)

=

);RMSNorm(Emb(+

+1+∈R+

logits2024b2023Xia2023)中期計(jì)劃(212+1)

LMTPLMTP=

GPU機(jī)動(dòng)車(chē) Transformer不對(duì)齊)“輸入反向”P(pán)P通信,紅色表示障礙PP(PP(Qi2023a)(EP(Lepikhin2021DP(Rajbhandar2020)DualPipeDeepSeekV3V3DualPipeal.2023b)alltoall(?1)(+)(?1)?2)2?1)(&+?3+表DualPip2023b)2018)DualPipeHoefler2021)DualPipe2)tokenGPU在實(shí)踐中8路由專(zhuān)家量13(43.2)20個(gè)SM就足以充分利用IB和NVLink的帶寬。2014)(1)(2)(1)L2緩存的使用和對(duì)其他SM的?擾。(EMA)2022Noune20222023b)2024HeSun20242022Xiao2023)2024)1(20192017)FP8訓(xùn)練的混合精度框架FP8中進(jìn)行GEMM(前向傳遞)Dgrad(激活后向傳遞和Wgrad(權(quán)重后向傳遞)FP8BF16FP8

(a框架)2017(1))(2)FP32累積策略2023b)(NVIDIA2024a)的設(shè)計(jì)可以作為未來(lái)工作的參考GPU架構(gòu)。Narang2017)NVIDIAH800GPUFP8GEMM14FP32維度K很大時(shí)(Wortsman2023),這個(gè)問(wèn)題會(huì)變得更加明顯量大小和模型寬度增加的典型場(chǎng)景4096(NVIDIA2024b2023WGMMA2023bSun2019b)(NVIDIA2024bPeng2023b線量化為FP8格式。低精度優(yōu)化器狀態(tài)BF16(而不FP32來(lái)跟蹤AdamW(LoshchilovHutter2017儲(chǔ)和梯度(用于批量大小累積仍保留在FP32法存儲(chǔ)在FP8?衡。FP8DeepSeek?V3(SP)4(EP32)token具體來(lái)說(shuō)MLP量并行TP通信。GPUTP4DP8064)SM不會(huì)顯著影響整體性能力部分的計(jì)算速度SM分配,這大大降低了對(duì)通信帶寬的依賴(lài)SM(H800GPU)SMIB(InfiniBandNVLinkGPUGPUIBRDMA(GPU和輸入/輸出緩沖區(qū)之間傳輸數(shù)據(jù)。?FP832FP8×FP8FP3234CoreHBMBF16FP8DeepSeekCoderV(DeepSeekAI2024a(FIM(PSM3a1999)K2(Lundberg2023)128瓶頸處乘以額外的縮放因子DeepSeek?V3671Btoken37BHutter2017)4K行性將模型的不同層部署在不GPU路864GPU0.0010.00010.3token設(shè)置為0.1。(NIAHDeepSeekV(DeepSeekAI2024c2023a32K3232K128K通過(guò)這種兩階段擴(kuò)展訓(xùn)練DeepSeek?V3能夠處理長(zhǎng)達(dá)128K8DeepSeekV3(NIAH3LLM201920202018202220172019閱讀理RACELai(2017)DROP(Duaetal.2019)C3(Sunetal.2019aCMRC(Cuietal.,2019)。al.2020al.2020)20212021202120232023)MBPP(Austinetal.,2021)和CRUXEval(Guetal.,2024)。2023)AGIEval(DeepSeek?AI2024bcHigh、MMLUMMLU?ReduxMMLU?ProMMMLUARC?EasyARC?ChallengeC?EvalCMMLU、C3和CCPMBBH(歐洲35532525ARC1005555TriviaQA0AGIEvalLiveCodeBench?Base(Pass@1)3CRUXEval?I(EM2)CLUEWSCC3(東根 72B底座405B底53??eBase(Qwen2024bBase(1DeepSeekV3BaseDeepSeekV3BaseDeepSeekV3BaseQwen2.572B(3LLaMA?3.1405BBasee并且在BBHMMLUDROPC?EvalCMMLU和CCPMDeepSeek BBH(歐洲GSM8K4MTP小萌小 大型BBH TriviaQA(EM5NaturalQuestions(EM)5HumanEval(Pass@1)0MBPP@13數(shù)學(xué)(EM)4批次式負(fù)載?衡VS.序列式負(fù)載?每個(gè)序列的域內(nèi)?在每個(gè)訓(xùn)練批次上進(jìn)行負(fù)載??2.258(損失方法或批量2.080。(1(23.4>R1保最終訓(xùn)練數(shù)據(jù)保留DeepSeek?R1的優(yōu)勢(shì))5×10?6開(kāi)始逐漸減小到1×10?6??煽啃?024)GRPO J()= (),{

D

?D?

12

IFEval(Zhouetal.2023)FRAMES(Krishnaet2024)2023)SimpleQA(OpenAI2024c)(He2024)SWE?BenchVerified(OpenAI,2024d)AiderLiveCodeBench(Jin2024(2024 20242024(MAA2024)、DeepSeek?V2.5?0905Qwen2.572BInstruct、\h\h\hSimpleQA(Lin2024)HumanEval?MulPHPBash)CoTCoT在h4年84年1s量h等2024)“diffAIME基準(zhǔn)(公制基準(zhǔn)(公制IF?Eval(提示嚴(yán)格SimpleQA(正確框架(配件LongBenchv2LiveCodeBenchLiveCodeBench(通過(guò)Codeforces(百分位數(shù)SWE(已解決CNMO2024(通行證CLUEWSC\h6DeepSeek?V3GPT?4oClaude?3.5?Sonnet級(jí)模型不相上下Qwen2.572B。3ot5Redu(U3臺(tái)d3于e5SonnetDeepSeek?V3理極長(zhǎng)上下文任務(wù)方面的強(qiáng)大能力。AiderHumanEvalLiveCodeBenchDeepSeek?V3落后于ClaudeSonnet?3.5?1022但明顯優(yōu)于開(kāi)源模型DeepSeekV3DeepSeekV3在數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeek?V3o1?AIMEMATH?500CNMO非凡的能力凸顯了DeepSeek?R1蒸餾技術(shù)的有效性o1類(lèi)模型非常有益。V3比Qwen2.5?72B高出16.4分和20242024a)3DeepSeekV320%2024和Claude?3.5Sonnet?1022同時(shí)超越了其他版本

V2.5+R1提煉

?均響應(yīng)長(zhǎng)度?長(zhǎng)2022)DeepSeek?V3tokenetal.2023Xiaetal.2023)它可以顯著加快模型的解碼速度token的接受率token8590DeepSeek?V3能夠顯著提高解碼速度1.8倍的TPS(每秒token數(shù))。V3671B37BDeepSeekV32.788MH800GPU小時(shí)。3量力力。B.ChanS.GrayN.RyderM.PavlovA.PowerL.KaiserM.BavarianC.WinterP.TilletFPSuchD.CummingsMPlappertFChantzisEBarnesAHerbert?VossWHGussANicholAPainoNTezakJ.TangI.BabuschkinS.BalajiS.JainW.SaundersC.Hesse、ANCarrJ.LeikeJ.AchiamV.MisraE.....SMcCandlishISutskeverWZarembaCoRRabs/2107.033742021\hP.ClarkI.CowheyO.EtzioniT.KhotA.SabharwalC.Schoenick和O.TafjordAI2推理挑戰(zhàn)arcCoRR,abs/1803.05457201年\h/abs/1803.05457。arXiv:2110.141682021\hLiPHuangFLuoCRuanZSuiWLiangDeepseekmoe邁向混合專(zhuān)家語(yǔ)言模型的終極專(zhuān)家專(zhuān)業(yè)化CoRRabs/2401.060662024\h\hv2\h\hLLM2401.029542024b\h\h04434int8()353031830332202HDingZWangGPaoliniVKumarADeorasDRothSSoatto更少的截?cái)嗫筛纳普Z(yǔ)言建模arXivarXiv:2404.108302024年。DDuaYWangPDasigiGStanovskySSinghMGardnerDROP需要對(duì)段落進(jìn)行離散推理的閱讀NAACLHLT20192019)2019doi10.18653/V1/N19?124610.18653/v1/n19?1246Y.DuboisB.GalambosiP.Liang和TBHashimotoalpacaevalWFedusBZophNShazeerSwitchtransformersCoRRabs/2101.03961,2021年URL\h/abs/2101.03961。arXivarXiv:2409.125172024。GptqarXiv:2210.173232022L.GaoS.BidermanS.BlackL.GoldingT.HoppeC.FosterJ.PhangH.HeA.Thite、N.NabeshimaThePile用于arXiv:2101.000272020abs/2406.041272024URL\hhttps://doi.or\hg/10.48550/arXiv.2406.04127。.GloeckleYIdrissi.Rozière.z和.Synnaeve\hL20244年7月17t4年id=pEWAcejiU2。Gemini1.52024\h\h(SHArP)(COMHPC)IEEE2016和Cruxeval2024\hcoderabs/2401.141962024Pipedream2018\h\harXivarXiv:2411.071402024年。arXiv:2009.033000決能力arXivarXiv:2103.03874,2021年。C?EvalarXiv:2305.083222023LivecodebenchCoRRabs/2403.079742024\hMJoshiEChoiDWeldLZettlemoyerTriviaQA用于閱讀理解的大規(guī)模遠(yuǎn)程監(jiān)督挑戰(zhàn)數(shù)據(jù)集RBarzilay2017doi10.18653/v1/P17?1147\hS.KrishnaK.KrishnaA.MohananeyS.SchwarczA.StamblerS.Upadhyay和M.Faruqui。abs2409.129412024doiARXIV.2409.12941\hTKwiatkowskiJPalomakiORedfieldMCollinsAPParikhCAlbertiDEpsteinIPolosukhinJ.7452–4662019doi10.1162/\h.Lai.Xie.Liu.g和EHHovyRACE.Palmer.a和.l7P2017)7年9月147年doiD17?1082\h1\h7?1082。arXiv:2403.137872024Gshard2021\h20219274?19286PMLR,2023年\hhttps://proceedings.mlr.press/v202/leviathan23\ha.html。Chimera\hACM2021doi10.1145/345881TLiW.?LChiangEFrickLDunlapTWuBZhuJEGonzalezIStoica量基準(zhǔn)Arena?hardbenchbuilderarXivarXiv:2406.119392024a。Ccpm2021年。EAGLE\h202420242024\hforum?id=1NdN7eXyb4。ZeroEval2024\harXiv:1711.05101201\h2023prompt?design?prompt?bound\haries?and?token?healing?3b2448b0be38。格式預(yù)印本,\hinvitational?mathematics?examination?aime2024\hhttps://mistral.ai/news/mixtral?8x22b2017arXiv:2206.029152022\hnvshmem?and?g\hpudirect?async,\h2022年。\h\hTransformerEngine2024b\hGPT?4o2024a\h(mmmlu)2024b\hSimpleQA2024c\h\h\hSWE?bench\hYarnarXiv:2401.102412023a。2023b\h\harXiv:2309.166092023Qwen1.52024a\hQwen2.52024b\h\hZeroSC20IEEE2020DReinBLHouACSticklandJPettyRYPangJDiraniJMichaelSRBowmanGPQAarXiv2311.12022202arXiv:2310.105372023aarXiv:2310.105372023b2019ZShaoPWangQZhuRXuJSongMZhangYLiYWuDGuoDeepseekmatharXivarXiv:2402.033002024年。2017\h2023OpenR3URL/forum?i\hd\h=fR3wGCk?IXp。YShibataTKidaSFukamachiMTakedaAShinoharaTShinoharaSArikawa式匹配的文本壓縮方案1999JSuMAhmedYLuSPanWBoYLiuRoformer568:12706320242019a預(yù)印本arXiv:2402.17762,2024年。322019barXiv:2210.092612022VThakkarPRamaniCCeckaAShivamHLuEYanJKosaianMHoemmenHWuAKerrMNicelyD.CUTLASS2023年1URL\h/NVIDIA/cutlasLLaMAarXiv:2302.139712023aH.TouvronL.MartinK.StoneP.AlbertA.AlmahairiY.BabaeiN.BashlykovS.Batra、P.BhargavaS.BhosaleD.BikelL.BlecherC.坎頓?費(fèi)雷爾M.ChenG.CucurullD.Esiobu、J.FernandesJ.FuW.FuB.FullerCV.GoswamiN.GoyalA.HartshornS.HosseiniR.HouH.InanM.KardasV.KerkezM.KhabsaI.Kl

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論