版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型推理框架升級(jí)之路我們將從四個(gè)優(yōu)化專(zhuān)項(xiàng)介紹如何優(yōu)化大模型推理框架性能量化投機(jī)采樣TTFT與TPOT的優(yōu)化通信優(yōu)化01量化量化作為大模型最重要的性能優(yōu)化手段,能有效降低顯存占用,降低訪存量,充分利用計(jì)算資源以下是大模型計(jì)算流程:Weight-int8+KV_cache_int8最早上線的一個(gè)版本,顯著降低顯存占用,使得模型使用較少卡啟動(dòng),增大服務(wù)承載能力,降低成本50%weight
跟
kv
cache在推理框架占用顯存為大頭,優(yōu)先優(yōu)化能有效降低成本Activation
int8A8是在w8/kv8基礎(chǔ)上對(duì)gemm相關(guān)計(jì)算的輸入激活進(jìn)行量化,能有效降低gemm運(yùn)算耗時(shí),首token耗時(shí)下降50%,成本下降15%Weight-int4+kv_cache-int4Int4
主要目標(biāo)是將顯存占用壓至更低,能在低端卡型上部署并支持更長(zhǎng)的序列,支持更大的batch,成本下降30%使用了類(lèi)似quorat的技術(shù),并結(jié)合marlin算子,針對(duì)性做了優(yōu)化,已在多個(gè)業(yè)務(wù)落地,后續(xù)可能會(huì)有論文輸出Communicationint8通信量化,降低低端卡通信耗時(shí)開(kāi)銷(xiāo),首token耗時(shí)下降30%后續(xù)會(huì)有論文產(chǎn)出AttentionQKV
int8將gemm計(jì)算全線轉(zhuǎn)為int8計(jì)算Q(int8)*K(int8)->softmax->V(int8)目前處于開(kāi)發(fā)中02投機(jī)采樣投機(jī)采樣就是利用decode過(guò)程算力冗余使用額外的技術(shù)生成多個(gè)候選token同時(shí)輸送給大模型并行驗(yàn)證,充分使用算力且不會(huì)增加額外太多的時(shí)延1(大模型輸出的最后一個(gè)token)
+
4(候選token)
->
一次驗(yàn)證通過(guò)4個(gè)token需要考慮云端大batch下候選token數(shù)量限制Clover模型結(jié)構(gòu)設(shè)計(jì)路線使用transformer
block
前幾層信息預(yù)測(cè)效果不好嘗試獲取全局的信息而不是僅僅當(dāng)前預(yù)測(cè)token的信息通過(guò)h<t+1>=concat(token_emb,
h<t>)效果提升有限嘗試attention結(jié)構(gòu)qk之爭(zhēng),h表示全局信息,不斷吸收token_emb效果不錯(cuò)/abs/2405.00263嘗試使用前置候選token信息輔助后續(xù)token預(yù)測(cè)單獨(dú)建一層可學(xué)習(xí)的transformer
block收集全局信息提升不錯(cuò)Sample
策略我們的目標(biāo)是大batch場(chǎng)景下投機(jī)有效,要求的候選token僅僅為4,此時(shí)sample策略就影響很大了開(kāi)源的都是固定組合的形式,如
head_0_top1+head_1_top1+head_2_top1,head_0_top2+head_1_top1+head_2_top1動(dòng)態(tài)構(gòu)建候選token樹(shù),較為激進(jìn)的貪心搜索策略核心策略:?jiǎn)蝨oken級(jí)別(保證樹(shù)深度)1.prob先進(jìn)行top
p丟棄按照top1/4
長(zhǎng)尾小概率丟棄token
tree級(jí)別(子節(jié)點(diǎn)排序依據(jù))1.從根節(jié)點(diǎn)的聯(lián)合概率排序每層token預(yù)算數(shù)量(保證樹(shù)最大寬度,防止計(jì)算量激增)1.去除所有父節(jié)點(diǎn)token數(shù)Clover收益命中率上提升50%+,
端到端推理速度提升30%+Clover2模型結(jié)構(gòu)升級(jí)/abs/2408.00264loss
優(yōu)化僅僅根據(jù)CrossEntropyLoss預(yù)測(cè)token偏序關(guān)系,訓(xùn)練多輪,過(guò)擬合會(huì)出現(xiàn)對(duì)一些高頻token增強(qiáng)概率的情況增加數(shù)據(jù)蒸餾loss使得clover能更加關(guān)注與主模型的一致性上,而不是走捷徑主模型預(yù)測(cè)token信息前置,提前加入transformer
block,幫助更遠(yuǎn)的預(yù)測(cè)Clover2模型結(jié)構(gòu)升級(jí)3.
Regressive
attention
block
output
projector結(jié)構(gòu)提升后幾個(gè)head預(yù)測(cè)能力4.
增加AugmentingBlock層數(shù),增強(qiáng)全局信息提取能力Augmenting
Block
位于第一個(gè)head之前只會(huì)跑一次,增加層數(shù)不會(huì)導(dǎo)致跑多次的問(wèn)題,eagle增加層就會(huì)導(dǎo)致每個(gè)head都多跑,耗時(shí)會(huì)暴增這為clover提供更多可能,可以設(shè)計(jì)更加復(fù)雜的Augmenting
Block,我們嘗試最簡(jiǎn)單的加層獲取收益Clover2收益clover為rnn為主的架構(gòu),但仍然能打敗eagle這種以decode
layer為主的模型結(jié)構(gòu)在各個(gè)數(shù)據(jù)集上都超過(guò)eagle命中率最大提升7.7%,
端到端推理速度最大提升9.3%03TTFTTPOT優(yōu)化首token耗時(shí)
與
decode每個(gè)token間耗時(shí)
的平衡驅(qū)動(dòng)來(lái)源于用戶體驗(yàn)上優(yōu)化,當(dāng)一個(gè)新的用戶請(qǐng)求進(jìn)入時(shí)會(huì)導(dǎo)致現(xiàn)有做decode的請(qǐng)求被卡住Chunk
prefillchunk
prefill是將單次prefill計(jì)算拆分為多段計(jì)算的技術(shù),能有效降低decode間隔時(shí)間Chunk
prefillSplit
fused技術(shù)將chunk
prefill與decode計(jì)算整合有效提升計(jì)算利用率Chunk
prefill算子差異明顯tensorcore
attention需要讀取kv
cache第一個(gè)版本訪存->反量化->計(jì)算
pipeline并不能很好掩蓋并且qk會(huì)切塊計(jì)算,每塊都需要反量化,反量化次數(shù)劇增為解決這個(gè)問(wèn)題,我們還是采用了外部反量化后再計(jì)算的策略最終收益decode
token間隔p99下降在各個(gè)業(yè)務(wù)都非常明顯PD分離解決TTFT與TPOT的平衡,PD分離是終極方案PD分離較短的輸入仍然采用split-fused的混合推理方案,長(zhǎng)請(qǐng)求會(huì)單獨(dú)扔給prefill節(jié)點(diǎn)完成,長(zhǎng)請(qǐng)求來(lái)的時(shí)間不一定此時(shí)需要PD動(dòng)態(tài)調(diào)度策略目前還在開(kāi)發(fā)測(cè)試中Cache
策略Sessioncache緩存多輪請(qǐng)求kv
cache結(jié)果多級(jí)動(dòng)態(tài)lru排除老數(shù)據(jù)對(duì)于第二輪的請(qǐng)求首token延遲提升巨大同時(shí)也支持sys_prompt
cache功能很早的一個(gè)版本就支持了該功能后來(lái)出了全局前綴樹(shù)cache,當(dāng)時(shí)評(píng)估收益不大最近的gpt
o1提出后,MCTS相關(guān)算法需求強(qiáng)烈最近會(huì)上線一個(gè)版本04通信優(yōu)化在4090卡上,通信能力很弱,通信耗時(shí)占比很高,導(dǎo)致gpu大部分時(shí)間算力浪費(fèi)計(jì)算通信overlap常見(jiàn)方法:gemm
overlap:許多場(chǎng)景通信耗時(shí)會(huì)長(zhǎng)于gemm計(jì)算,導(dǎo)致不能很好overlapreqoverlap:需要組批兩個(gè)請(qǐng)求,還需要兩個(gè)請(qǐng)求間盡量計(jì)算量均衡我們的設(shè)計(jì):ISOsequence內(nèi)的overlap方法/abs/2409.11155計(jì)算通信overlap計(jì)算通信占比越均衡收益越大,最終收益上限取最小的占比在a800和4090上計(jì)算通信占比都比較極端我們針對(duì)性的做了優(yōu)化4090
通信占大頭,通信>attention
&&
通信>mlp8bit通信,對(duì)通信進(jìn)行量化A800
計(jì)算占大頭,
通信<attention&&通信<mlpgemm與comm多stream會(huì)導(dǎo)致gemm耗時(shí)增加20%采用gemm切塊的策略,減少gemm與comm之間的重疊計(jì)算通信overlap除了以上兩個(gè)極端的情況,可能會(huì)出現(xiàn) mlp<通信<attention
的情況,為此我們?cè)O(shè)計(jì)了可能的優(yōu)化手段attention計(jì)算量的不平衡,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《EXCEL與財(cái)務(wù)會(huì)計(jì)》課件
- 合伙合同糾紛辦案小結(jié)
- 工程招投標(biāo)與合同管理實(shí)訓(xùn)指導(dǎo)書(shū)
- 《Final砌筑工藝》課件
- 2025年恩施駕校考試貨運(yùn)從業(yè)資格證考試
- 2025年長(zhǎng)春貨運(yùn)從業(yè)資格證考試技巧
- 2025年西藏貨運(yùn)資格證考題
- 大型展覽中心鋼結(jié)構(gòu)施工合同樣本
- 餐廳折疊門(mén)施工協(xié)議
- 蘇教版九年級(jí)數(shù)學(xué)上冊(cè)知識(shí)點(diǎn)總結(jié)
- 人教PEP版(2024)三年級(jí)上冊(cè)英語(yǔ)Unit 4《Plants around us》單元作業(yè)設(shè)計(jì)
- 2024年秋季新統(tǒng)編版七年級(jí)上冊(cè)道德與法治全冊(cè)教案
- DL∕T 5362-2018 水工瀝青混凝土試驗(yàn)規(guī)程
- DL-T5054-2016火力發(fā)電廠汽水管道設(shè)計(jì)規(guī)范
- 交響音樂(lè)賞析智慧樹(shù)知到期末考試答案章節(jié)答案2024年西安交通大學(xué)
- 個(gè)人租房合同標(biāo)準(zhǔn)版打印
- 大學(xué)生心理健康與發(fā)展學(xué)習(xí)通超星課后章節(jié)答案期末考試題庫(kù)2023年
- 國(guó)網(wǎng)基建國(guó)家電網(wǎng)公司輸變電工程結(jié)算管理辦法
- 100道遞等式計(jì)算(能巧算得要巧算)
- 中國(guó)地圖含省份信息可編輯矢量圖
- 路政運(yùn)政交通運(yùn)輸執(zhí)法人員考試題庫(kù)
評(píng)論
0/150
提交評(píng)論