李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第1頁
李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第2頁
李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第3頁
李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第4頁
李笙維:DataFunSummit非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室博士研究生李笙維DataFunSummit#2024并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室研究背景一、研究背景:大模型并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室基礎(chǔ)模型參數(shù)量爆炸性增長并行訓(xùn)練基本方法一、研究背景:并行訓(xùn)練基本方法并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式-并行程序邏輯比較容易理解-單次迭代中模型訓(xùn)練的數(shù)據(jù)總量增加,使得總的訓(xùn)練時(shí)間減少-為了保證收斂性,需要頻繁的梯度同步通信一、研究背景:并行訓(xùn)練基本方法并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式?模型并行方式下每個(gè)設(shè)備上只有模型的一部分,張量并行、流水線并行均屬于模型并行-降低了模型訓(xùn)練時(shí)對(duì)單卡的顯存需求-較大的通信開銷(常見于張量并行)-較低的設(shè)備利用率(常見于流水線并行)一、研究背景:并行訓(xùn)練基本方法并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式一、研究背景:并行訓(xùn)練基本方法并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式一、研究背景:并行訓(xùn)練基本方法并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?并行訓(xùn)練基本方法主要分為數(shù)據(jù)并行,模型并行,混合并行等基本形式?混合并行(hybirdparallel-可以結(jié)合模型并行和數(shù)據(jù)并行的優(yōu)點(diǎn),實(shí)現(xiàn)高效的模型訓(xùn)練-應(yīng)對(duì)大模型訓(xùn)練的主要方法-難以找到性能優(yōu)異的混合并行策略,使得混合并行的優(yōu)勢(shì)無法發(fā)揮出來一、研究背景:大模型訓(xùn)練加速器并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?數(shù)據(jù)中心GPU(A100,H100...)是目前最常見的加速器:性價(jià)比較為接近,然而通信帶寬差距巨大,在大模型的并行訓(xùn)練中有較?因此,研究非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練更具重要意義GPU算力的性價(jià)比可以使用RatiooftheComputationperformanceandCost(RCC)定義,單位為TFLOPS/$并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室研究進(jìn)展二、研究進(jìn)展小結(jié)并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?圍繞非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練問題,開展關(guān)鍵技術(shù)研究?高性價(jià)比的大模型訓(xùn)練:?高效率的并行訓(xùn)練:?設(shè)計(jì)多維度通信調(diào)度方法,提高并行訓(xùn)練的通信效率?設(shè)計(jì)通信計(jì)算重疊的聯(lián)合調(diào)度方法,提高并行訓(xùn)練效率?設(shè)計(jì)流水線并行的異構(gòu)內(nèi)存交換方法,緩解顯存墻問題?高可編程性的并行訓(xùn)練:?解耦模型設(shè)計(jì)與并行訓(xùn)練,加強(qiáng)多維并行訓(xùn)練的可編程性2.1高性價(jià)比的大模型訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?大模型并行訓(xùn)練的性價(jià)比建模方法?并行訓(xùn)練下,訓(xùn)練性價(jià)比可以使用單位價(jià)格能獲得的?從算力性價(jià)比角度4090GPU最高,然而4090無法使用NVLink進(jìn)行帶寬提升,算力性價(jià)比次3090可以通過相對(duì)便宜的NVLink提GPUGPU算力性價(jià)比(TFLOPS/$)對(duì)比圖3090NVLink并行訓(xùn)練環(huán)境示意圖2.1高性價(jià)比的大模型訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?大模型并行訓(xùn)練的性價(jià)比建模方法?在考慮了NVLink價(jià)格的基礎(chǔ)上,3090NVLink配置相對(duì)于全NVLink相連的A100-SXM配?該集群的建立僅供思路參考,3090仍有著內(nèi)存不足(24G)等問題3090-NVLink的硬件價(jià)格估算方法并行訓(xùn)練性價(jià)比對(duì)比2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法?非數(shù)據(jù)中心GPU情況下,通常通信帶寬受限較為明顯?通信調(diào)度技術(shù)是常見的降低通信開銷的方法,然而混合并行訓(xùn)練的通信操作復(fù)雜,帶來兩1)通信操作多樣,包括數(shù)據(jù)并行的AllRed異步流水線并行數(shù)據(jù)并行的混合并行訓(xùn)練中通信操作復(fù)雜通信調(diào)度方法不適用于稀疏通信2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法?針對(duì)數(shù)據(jù)并行的AllReduce通信,根據(jù)異步流水線并行的參數(shù)更新方法,最大化重疊計(jì)算操作?針對(duì)流水線并行的P2P通信,將雙向通信解耦為兩個(gè)單向通信,盡可能減少關(guān)鍵路徑上的通信數(shù)量?使用稀疏通信降低embedding的通信開銷,并將以embedding各行為單位進(jìn)行細(xì)AllReduce通信調(diào)度方法P2P通信調(diào)度方法稀疏通信調(diào)度方法2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:TriRace--面向混合并行訓(xùn)練的多維度通訊調(diào)度方法2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:Oases--面向張量并行的自動(dòng)通信計(jì)算重疊方法?Transformer模型的HiddenSize高速增長,張量并行成模型名發(fā)布年份模型大小LayersHiddenSize3/OPT2020/20222021530B20480PaLM2022540BBLOOM2022LLaMA202365B8192Falcon202340B8192Transformer預(yù)訓(xùn)練模型的HiddenSize較大59.2%59.2%64.7%張量并行通信在帶寬受限的情況下訓(xùn)練中占比較高2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:Oases--面向張量并行的自動(dòng)通信計(jì)算重疊方法?當(dāng)前主流的張量并行通信計(jì)算重疊方法為將矩陣乘法和其通信分解為多個(gè)操作?設(shè)計(jì)細(xì)粒度的通信計(jì)算調(diào)度方法,將數(shù)據(jù)在batch維度切分為互不依賴的兩個(gè)子數(shù)據(jù),他們的通2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:Oases--面向張量并行的自動(dòng)通信計(jì)算重疊方法?在顯存受限的場(chǎng)景下,使用重計(jì)算計(jì)算技術(shù)非常必要?設(shè)計(jì)去除通信冗余的重計(jì)算調(diào)度方法,應(yīng)用重計(jì)算時(shí),將通信結(jié)果作為重計(jì)算子圖的輸出可重計(jì)算結(jié)束的位置為通信后時(shí),可以省去該通信2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?通信計(jì)算調(diào)度:Oases--面向張量并行的自動(dòng)通信計(jì)算重疊方法?Oases可以顯著加速張量并行訓(xùn)練,相較Megatron-LM,A2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?顯存優(yōu)化:Mbapp--面向商品級(jí)GPU的流水線并行異構(gòu)內(nèi)存交換方法?流水線并行通信量降低,適用于在商品級(jí)GPU上訓(xùn)練大模型?商品級(jí)GPU如3090的顯存容量較小,大模型的訓(xùn)練要求顯存優(yōu)化技術(shù)(e.g.,顯存交換,swa?流水線并行的算法特點(diǎn),導(dǎo)致流水級(jí)(設(shè)備)之間的顯存分布不均衡流水線并行適合通信資源貧乏的商品級(jí)深度學(xué)習(xí)服務(wù)器流水線并行的顯存消耗不均衡2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?顯存優(yōu)化:Mbapp--面向商品級(jí)GPU的流水線并行異構(gòu)內(nèi)存交換方法?混合GPU-CPUswap方法:對(duì)于內(nèi) Mbapp工作流程2.2高效率的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?顯存優(yōu)化:Mbapp--面向商品級(jí)GPU的流水線并行異構(gòu)內(nèi)存交換方法?相較于內(nèi)存交換方法torch-offload,訓(xùn)練吞吐量可以提?Mbapp可以使各流水級(jí)(工作設(shè)備)的顯存消耗更加均衡2.3高可編程性的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?Merak--實(shí)現(xiàn)模型設(shè)計(jì)與并行訓(xùn)練的解耦?語言模型開源社區(qū)活躍,多樣的模型定義方式給并行訓(xùn)練應(yīng)用帶來較大挑戰(zhàn)是是否否是是否否是是是否否是是否是是是是并行訓(xùn)練框架中自動(dòng)應(yīng)用并行訓(xùn)練技術(shù)的情況2.3高可編程性的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?Merak--實(shí)現(xiàn)模型設(shè)計(jì)與并行訓(xùn)練的解耦?單機(jī)腳本的計(jì)算圖定義方式繁多,?提出基于?符號(hào)算子不進(jìn)行參數(shù)初始化,可以使用?提出一個(gè)計(jì)算圖劃分算法?分析圖節(jié)點(diǎn)的依賴關(guān)系,找到通信量較?考慮模型訓(xùn)練中常量可以在子圖間傳遞,模型劃分編譯的工作流程?子圖分配至工作設(shè)備后,進(jìn)行參數(shù)初始化,模型劃分編譯的工作流程2.3高可編程性的并行訓(xùn)練并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?Merak--實(shí)現(xiàn)模型設(shè)計(jì)與并行訓(xùn)練的解耦?API接口簡明易用,在單機(jī)訓(xùn)練腳本的基礎(chǔ)上,僅需增加幾行代碼即可實(shí)現(xiàn)數(shù)據(jù)-流水線-張/HPDL-Group/Merak并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室總結(jié)與展望三、研究總結(jié)并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?圍繞非數(shù)據(jù)中心GPU上的大模型并行訓(xùn)練問題,可以總結(jié)為提高大模型的accessbility,讓更多研究者更便宜更快更方便地進(jìn)行大模型訓(xùn)練三、研究展望并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?大模型的持續(xù)迭代對(duì)大規(guī)模異構(gòu)并行計(jì)算效率提出更高要求?針對(duì)更多應(yīng)用特點(diǎn)的大規(guī)模分布式訓(xùn)練技術(shù)如何整合及通用化?深度學(xué)習(xí)編譯器是提高并行訓(xùn)練可編程性的重要技術(shù)方向?通信帶寬進(jìn)步落后于需求,通信優(yōu)化是提高并行訓(xùn)練效率的重要方向?大規(guī)模分布式訓(xùn)練技術(shù)需要更大規(guī)模更真實(shí)場(chǎng)景的測(cè)試與驗(yàn)證并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室謝謝?博士研究生李笙維?博士研究生李笙維更多研究詳見導(dǎo)師主頁:DataFunSummit#2024大規(guī)模并行訓(xùn)練框架設(shè)想并行與分布計(jì)算全國重點(diǎn)實(shí)驗(yàn)室?設(shè)想:并行訓(xùn)練框架自頂向下可分為6層APIJAXJAXPaddlePaddle...AccesstrainAccesstrainresourceAccessmodelAccessmodelIRtf.graphtorch.fxjax_to_hlo...IntermediaterepresentationTrainingTrainingresourceabstractionDevicetopoProfiling...IRIRconvertIRstructuredParallelstrategygenerationParallelstrategygenerationCostmodelIRcompilerDeviceassignTrainsimulator并行策略制訂層MemorymanagementComputationscheduleDistributedruntimeengineMemorymanagementComputationscheduleDistributedruntimeengineCommunicationscheduleComputationoperatorCommunicationlibraryDevice-specificoperatorComputationoperatorCommunicationlibraryDevice-specificoperator大規(guī)模并行訓(xùn)練框架設(shè)想?Merak并行訓(xùn)練框架并行與分布計(jì)算全國重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論