百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第1頁(yè)
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第2頁(yè)
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第3頁(yè)
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第4頁(yè)
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案大模型Al新時(shí)代的基礎(chǔ)設(shè)施Jared,etal.Jared,etal.2020.模型大小(十億參數(shù))(藍(lán)色:語(yǔ)言模型;綠色:中文語(yǔ)言模型;橘色:多模態(tài)模型;黃色:視覺模型)模型大小(十億參數(shù))GPT-3(175B)GPT-3(175B)ERNIE3.0Titan(260B)●50Turing-NLG(17B)T5(11B)50Turing-NLG(17B)T5(11B)v-MOE(15B)ERNIE3.0(10B)ERNIE-VILG(10B)5GPT-2(1.5B)CogView(4B)●DALL-E(1.2B)5GPT-2(1.5B)BERT(340M)viT(630M)viT-G(2B)SwinV2(3B)BERT(340M)ERNlE2.0(330M)ERNlE2.0(330M)ELMo(90M)ERNlEELMo(90M)0.052017/8/142018/9/182019/10/232020/11/262021/12/312017/8/14模型參數(shù)演進(jìn)計(jì)算規(guī)模大單卡A100訓(xùn)練需要32年模型參數(shù)大350G+計(jì)算規(guī)模大單卡A100訓(xùn)練需要32年模型參數(shù)大350G+存儲(chǔ)空間以GPT-3為例,1750億參數(shù)模型、3000億詞語(yǔ),計(jì)算量314ZFLOPS新摩爾定律成本投入大理成本計(jì)算精度存儲(chǔ)瓶頸分布式架構(gòu)us時(shí)代的萬(wàn)卡互聯(lián)訓(xùn)練顯存,推理服務(wù),芯片存算比計(jì)算精度存儲(chǔ)瓶頸分布式架構(gòu)us時(shí)代的萬(wàn)卡互聯(lián)訓(xùn)練顯存,推理服務(wù),芯片存算比整體向低精度遷移,混合精度是常態(tài)高性價(jià)比智算集群構(gòu)建易用性訓(xùn)練加速優(yōu)化高性價(jià)比智算集群構(gòu)建易用性利用率提升多級(jí)存儲(chǔ)彈性按需異構(gòu)算力利用率提升多級(jí)存儲(chǔ)彈性按需異構(gòu)算力萬(wàn)卡集群高速互聯(lián)彈性容錯(cuò)一站式平臺(tái)最佳實(shí)踐高性能算子顯存優(yōu)化集群加速比算法收斂速度____________二____________二心______二____________二____________二心______二百度AI大底座全景圖應(yīng)用百度AI大底座由AIIaaS層(百舸AI異構(gòu)計(jì)算平臺(tái))、AIPaaS層(AI中臺(tái))兩大部分組成應(yīng)用文心大模型及相關(guān)應(yīng)用第三方模型及相關(guān)應(yīng)用基礎(chǔ)管控AI服務(wù)運(yùn)行平臺(tái)基礎(chǔ)管控AIAI臺(tái)AI資產(chǎn)共享平臺(tái)全功能AI開發(fā)平臺(tái)BML零門檻AI開發(fā)平臺(tái)EasyDLGPU調(diào)度AI作業(yè)調(diào)度彈性訓(xùn)練可觀測(cè)性分布式訓(xùn)練加速AIAK-Training推理加速AIAK-Inference計(jì)百分布式訓(xùn)練加速AIAK-Training推理加速AIAK-Inference計(jì)百算舸平異臺(tái)構(gòu)海量數(shù)據(jù)湖存儲(chǔ)對(duì)象存儲(chǔ)海量數(shù)據(jù)湖存儲(chǔ)對(duì)象存儲(chǔ)BOS并行文件存儲(chǔ)PFS高速互聯(lián)異構(gòu)芯片昆侖芯高速互聯(lián)異構(gòu)芯片昆侖芯GPURDMAInfiniBandX-MANRDMA百度AI大底座全景圖基于Al大底座的大模型研發(fā)基礎(chǔ)設(shè)施方案概覽穩(wěn)定收斂一鍵跑通千億大模型訓(xùn)練推理最優(yōu)的訓(xùn)練推理性能穩(wěn)定性萬(wàn)卡模型訓(xùn)練不中斷穩(wěn)定收斂一鍵跑通千億大模型訓(xùn)練推理最優(yōu)的訓(xùn)練推理性能穩(wěn)定性萬(wàn)卡模型訓(xùn)練不中斷百舸控制面網(wǎng)絡(luò)產(chǎn)品配置容器平臺(tái)配置云原生AI套件配置百舸控制面網(wǎng)絡(luò)產(chǎn)品配置容器平臺(tái)配置云原生AI套件配置計(jì)算產(chǎn)品配置存儲(chǔ)產(chǎn)品配置計(jì)算產(chǎn)品配置云原生AI套件GPU架構(gòu)感知Tor架構(gòu)感知公共數(shù)據(jù)集公共模型庫(kù)模型/數(shù)據(jù)預(yù)熱高性能存儲(chǔ)BF16優(yōu)化參數(shù)推薦CostModel通信overlapBinpack調(diào)度Gang調(diào)度服務(wù)部署多卡部署灰度發(fā)布流量控制動(dòng)態(tài)伸縮容錯(cuò)訓(xùn)練云原生AI套件GPU架構(gòu)感知Tor架構(gòu)感知公共數(shù)據(jù)集公共模型庫(kù)模型/數(shù)據(jù)預(yù)熱高性能存儲(chǔ)BF16優(yōu)化參數(shù)推薦CostModel通信overlapBinpack調(diào)度Gang調(diào)度服務(wù)部署多卡部署灰度發(fā)布流量控制動(dòng)態(tài)伸縮容錯(cuò)訓(xùn)練故障感知算力容錯(cuò)網(wǎng)絡(luò)容錯(cuò)任務(wù)容錯(cuò)推理加速動(dòng)態(tài)batch張量并行模型輕量化模型稀疏化云原生平臺(tái)異構(gòu)調(diào)度數(shù)據(jù)加速訓(xùn)練加速CCE-StackCCE-Stack(私有云)、A800、昆侖)、A800、昆侖)基礎(chǔ)設(shè)施大模型研發(fā)集群構(gòu)建方案180Gbps50M+Gbps2GB/s180Gbps50M+Gbps2GB/s32(裸金屬終態(tài))OVS-Nova-大模型集群可達(dá)萬(wàn)卡級(jí)別,單作業(yè)千卡;兼顧P2P大模型集群可達(dá)萬(wàn)卡級(jí)別,單作業(yè)千卡;兼顧P2P延遲和通信吞吐8導(dǎo)軌優(yōu)化的三層8導(dǎo)軌優(yōu)化的三層CLOS架構(gòu)?IB可支撐16000卡規(guī)模,RoCE可支??結(jié)合網(wǎng)絡(luò)流量特點(diǎn),重點(diǎn)優(yōu)化同號(hào)卡AllReduce操作?一組機(jī)器有8臺(tái)Tor組成,分別連接20臺(tái)機(jī)器對(duì)應(yīng)?多組Unit間的同號(hào)卡通過(guò)Leaf層連接,支持最大4?異號(hào)GPU網(wǎng)卡通過(guò)Spine層連接,使能異號(hào)卡網(wǎng)絡(luò)與DragonfIY與DragonfIY、Torus拓?fù)浔容^的優(yōu)勢(shì)?節(jié)點(diǎn)間跳步數(shù)更穩(wěn)定MDISKDISKMDISKDISKDISEMDISKEM*數(shù)據(jù)集存儲(chǔ)/上傳-月光寶盒/對(duì)象存儲(chǔ)EMKKTCP/InfiniBand/RoCETCP*預(yù)訓(xùn)練模型存儲(chǔ)-訓(xùn)練開始時(shí)遠(yuǎn)端拉取到本地-TCP/InfiniBand/RoCETCP并行文件存儲(chǔ)PFS并行文件存儲(chǔ)PFS分布式緩存加速RapidFS托管BCC/BBC集群*容錯(cuò)檢查點(diǎn)存儲(chǔ)-訓(xùn)練過(guò)程中的checkpoint存儲(chǔ)到托管BCC/BBC集群對(duì)象存儲(chǔ)BOS標(biāo)準(zhǔn)存儲(chǔ)低頻存儲(chǔ)冷存儲(chǔ)歸檔存儲(chǔ)*Conda/VSCode代碼庫(kù)對(duì)象存儲(chǔ)BOS標(biāo)準(zhǔn)存儲(chǔ)低頻存儲(chǔ)冷存儲(chǔ)歸檔存儲(chǔ)*支持存儲(chǔ)可觀測(cè)性數(shù)據(jù)集上云方案有閑置的公網(wǎng)帶寬)到端直連,需IDC中轉(zhuǎn),并部署遷移移數(shù)據(jù)流轉(zhuǎn)平臺(tái)CloudFlow*IO并行**IO并行*亞毫秒延時(shí)*百GB/s吞吐*內(nèi)核客戶端*高速硬件*極短IO路徑托管BCC/BBC集群MDSMDSMDS……MDSMDSMDSMDS……MDSOSSOSSOSS……OSSOSSOSSOSS……OSSOSSOSS大規(guī)模訓(xùn)練場(chǎng)景下,支持高并發(fā)、低延遲數(shù)據(jù)訪問、大模型訓(xùn)推加速優(yōu)化方案通信效率優(yōu)化高性能算子通信優(yōu)化策略:隱藏/融合/壓縮/卸載/拓?fù)涞途扔?xùn)練計(jì)算效率優(yōu)化顯存利用優(yōu)化IO和預(yù)處理優(yōu)化DataLoader優(yōu)化單機(jī)多卡TCP多機(jī)優(yōu)化RDMA多機(jī)優(yōu)化重計(jì)算技術(shù)預(yù)處理加速算子融合參數(shù)/梯度/優(yōu)化器分片顯存卸載機(jī)制高性能訓(xùn)練通信庫(kù)ECCL通信效率優(yōu)化高性能算子通信優(yōu)化策略:隱藏/融合/壓縮/卸載/拓?fù)涞途扔?xùn)練計(jì)算效率優(yōu)化顯存利用優(yōu)化IO和預(yù)處理優(yōu)化DataLoader優(yōu)化單機(jī)多卡TCP多機(jī)優(yōu)化RDMA多機(jī)優(yōu)化重計(jì)算技術(shù)預(yù)處理加速算子融合參數(shù)/梯度/優(yōu)化器分片顯存卸載機(jī)制高性能訓(xùn)練通信庫(kù)ECCLAll2AllAll2All加速:通過(guò)機(jī)內(nèi)NVLink減輕對(duì)網(wǎng)絡(luò)的壓力8導(dǎo)軌優(yōu)化下,同號(hào)卡最多經(jīng)過(guò)Leaf層,異號(hào)卡通信需要經(jīng)過(guò)spine層((NCCL2.12+)0.9All2All性能提升(%) TVM一4D混合并行框架高效流水并行編排4D混合并行框架高效流水并行編排大模型天然適合切分混合多種并行策略大模型天然適合切分混合多種并行策略豎切、橫切、縱向擴(kuò)展豎切橫切模型切分豎切橫切模型切分縱向擴(kuò)展縱向擴(kuò)展Transformer層內(nèi)大Transformer層內(nèi)大,稱為模型并行(MP)訓(xùn)練,稱為數(shù)據(jù)并行 (DP)層切分,稱為流水線并行(PP)顯存占用(Groupsharding)干億模型訓(xùn)練配置策略參與節(jié)點(diǎn)機(jī)內(nèi)8卡AllReducesharding機(jī)內(nèi)8卡Broadcast多機(jī)—組,機(jī)間同號(hào)卡P2P通信多組數(shù)據(jù)并行(多機(jī)—個(gè)單元)主流框架支持最佳實(shí)踐和案例操作流程圖:集群創(chuàng)建:架構(gòu)圖:任務(wù)提交:為全球最大中文單體模型提供高效穩(wěn)定的訓(xùn)練平臺(tái)為全球最大中文單體模型提供高效穩(wěn)定的訓(xùn)練平臺(tái)26002600

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論