LLM訓練推理加速在阿里巴巴的實踐-劉侃+楊斯然_第1頁
LLM訓練推理加速在阿里巴巴的實踐-劉侃+楊斯然_第2頁
LLM訓練推理加速在阿里巴巴的實踐-劉侃+楊斯然_第3頁
LLM訓練推理加速在阿里巴巴的實踐-劉侃+楊斯然_第4頁
LLM訓練推理加速在阿里巴巴的實踐-劉侃+楊斯然_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

在阿里巴巴的實踐?大語言模型訓練的過程?大語言模型訓練的算法和問題?大語言模型中的模型并行大語言模型的應用有監(jiān)督微調(diào)預訓練上百萬GPU小時2.部分通信和梯度計算并行2.部分通信和梯度計算并行3.模型更新2.梯度同步GPUGPUGPUGPU65B模型:780GB顯存容量:80GB65B模型:260GB大語言模型訓練:模型并行參考文獻:1.Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism2.EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LMFWBWFWFWBWFWAdamBWReduceScatterAllgatherAdamFWFWBWAllgatherReduceFWBWFWFWBWFWAdamBWReduceScatterAllgatherAdamFWFWBWAllgatherReduceScatterBWBWBWBWReduceReduceScatterLLaMA-13B訓練時間LLaMA-13B訓練時間256xA10080GB512xA10080GBMegatron-LLaMA1890(23.9天)1845(12.2天)1630(27.8天)1430(15.8天)WarmupSteadyAdamAllgatherWarmupSteadyAdamAllgatherTensor并行開銷:正比于TPSizeCooldownCooldownReduceReduceScatter參考文獻:EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LMshtools/checkpoint_conversion/hf_to_megatron.shtorchrun--nproc_per_node=8pretrain_llama.py\--tensor-model-parallel-size2\--pipeline-model-parallel-size1\--overlapped-distributed-optimizer\優(yōu)化器設置--reduce-bucket-size4e8\通信分片設置--tokenizer-type=PretrainedFromHFshtools/checkpoint_conversion/megatron_to_hf.sh?大語言模型的訓練需要消耗大量的GPU資源?框架可以提供在這三者之間平衡和優(yōu)化的手段?LLM推理的趨勢?LLM推理的應用場景和挑戰(zhàn)?LLM推理的核心問題和優(yōu)化方法框架實踐–淘寶問問KVCache復用框架實踐–Query改寫極致延遲優(yōu)化?rtp-llm框架實踐–Speculative近似方法LLM推理的趨勢?級大的推理算力需求?極高的延遲響應要求?極致的成本考驗聊天應用代碼補全利用率高,最大化吞吐模型多租利用率低,最小化成本LLM推理的核心問題和優(yōu)化方法?大模型做小?請求/部署復用?量化/剪枝/蒸餾 ?高性能異構計算硬件 ?全面適配主流開源模型/內(nèi)部模型?動態(tài)/靜態(tài)添加LoRA?動態(tài)/靜態(tài)量化?支持多種輔助推理加速方法?支持多模態(tài)模型rtp-llm實踐-淘寶問問KVCache復用Cache遷移?延遲對比A場景(S-D)C場景(M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論