版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
騰訊游戲知幾語(yǔ)音合成大模型推理加速方案背景介紹語(yǔ)音合成模型結(jié)構(gòu)分析語(yǔ)音合成模型推理思路未來(lái)展望01背景介紹背景-產(chǎn)品展示01、王者榮耀小妲己“游戲知識(shí)問(wèn)答”02、和平第五人的『AI語(yǔ)音助手』03、天涯明月刀『絕智阿暖』智能NPC范閑老頭云悠悠英語(yǔ)男英語(yǔ)女原音CFer你好呀!喜歡姐姐的AK四七嗎?不喜歡的話還有M四A一和AN九四哦.姐姐的ASMR你受得了嗎?I
loveyoumysweetheart~你在開(kāi)什么玩笑?我才不會(huì)上當(dāng)呢。背景-產(chǎn)品展示TTS:更自然、韻律豐富、更實(shí)時(shí)采用LM方案
--
自研知音語(yǔ)音大模型10s音頻完成聲音復(fù)刻通過(guò)加速優(yōu)化,實(shí)時(shí)率~0085.Audio
Decoder
Language
Model Text
Encoder AudioEncoder喜歡我在你耳邊說(shuō)話的感覺(jué)嗎?02模型結(jié)構(gòu)選型與分析輸入文本聲學(xué)模型FastSpeech/Tacotron聲碼器hifigan/wavernn傳統(tǒng)方案基于語(yǔ)言模型的新方案語(yǔ)音合成大模型結(jié)構(gòu)輸入文本LMModel1243…
9SemanticToken
|AcousticToken
?st1243…
9LMModel/NAR
Model12
43 …
9…71
21 6816
52…3…AcousticToken12
43 …
9…71
21 6816
52…3…Codec
Decoder語(yǔ)音合成大模型結(jié)構(gòu)面臨的挑戰(zhàn):高并發(fā)場(chǎng)景實(shí)時(shí)率問(wèn)題03模型推理加速方案推理加速方案-借鑒與選擇是否能將NLP領(lǐng)域的LLM
推理加速方法應(yīng)用到語(yǔ)音合成大模型上?kv
cacheflash
decodeprefixkv
cacheflash
attention投機(jī)采樣Int4/int8
量化page
attention…….LLM
中的kv
cache:推理加速方案-kv
cacheStep2,withoutkvcache:Step
1:Step2,withkv
cache:推理加速方案-kv
cache當(dāng)attention
mask使得attention的計(jì)算滿足以下條件時(shí),就能使用kv
cacheattentionoutput的第n行只與第n個(gè)q相關(guān)第1~n個(gè)token的attention的計(jì)算包含第1~n-1個(gè)token的attention計(jì)算每次attention的計(jì)算都用前面k和v語(yǔ)音ar模型中
attentionmask與attention計(jì)算滿足kvcache的使用生成第n個(gè)tokenattention_maskattention_maskMask(Q*K)Mask(Q*K)推理加速方案-kv
cache對(duì)于prefill階段來(lái)說(shuō)是典型的計(jì)算受限場(chǎng)景,計(jì)算的瓶頸占據(jù)主導(dǎo)。而到了decode
階段,就是典型的訪存受限場(chǎng)景,訪存的瓶頸占據(jù)主導(dǎo)推理加速方案-GQA相比
kv
cache
int8/fp8
等量化方式,
選擇GQA壓縮率更可控,可以在保證效果的同時(shí),選擇更少的headnum將headnum從16減少到4,推理耗時(shí)降低20%推理加速方案-GQA有了kv
cache后,語(yǔ)音合成模型中AR模型也分為prefill階段和decode階段,合成10秒的音頻需要AR模型生成500個(gè)token同樣的音頻時(shí)長(zhǎng),如何減少token生成的數(shù)量?推理加速方案-BPE在NLP中,采用類似BPE子詞算法進(jìn)行分詞防止OOV問(wèn)題BPE首先將詞分成單個(gè)字符,然后依次用另一個(gè)字符替換頻率最高的一對(duì)字符,直到循環(huán)次數(shù)結(jié)束推理加速方案-BPE10s音頻需生成token數(shù)從500個(gè)token下降到約170個(gè)token在語(yǔ)音合成大模型中,將BPE算法應(yīng)用在推理加速上,一次AR模型decode出一個(gè)BPE的code,對(duì)應(yīng)多個(gè)audiotoken為了能直接使用NLP
BPE,將audio
token先映射到唯一的unicode上,每一個(gè)字符對(duì)應(yīng)一個(gè)audiocode。推理加速方案-BPE方案二:在語(yǔ)音合成大模型中batch的兩種方法方案一:推理加速方案-批處理推理使用方案二:優(yōu)點(diǎn):在類似emb的算子需要分別對(duì)text和audio
特征做處理時(shí)更簡(jiǎn)單缺點(diǎn):推理的decode階段attention計(jì)算需要每次傳入paddingattention
mask,在推理框架中比較復(fù)雜優(yōu)點(diǎn):attention推理計(jì)算,不需要自定義
paddingattention
mask,可無(wú)縫使用LLM推理框架缺點(diǎn):在類似emb的算子需要分別對(duì)text和audio
特征做處理時(shí)更復(fù)雜推理加速方案-批處理在語(yǔ)音合成大模型中batch的兩種方法訓(xùn)練使用方案一:樸素批處理:連續(xù)性批處理:推理加速方案-連續(xù)性批處理結(jié)合騰訊Trpc微服務(wù)框架,在語(yǔ)音合成大模型中實(shí)踐continuousbatching推理推理加速方案-連續(xù)性批處理語(yǔ)音合成大模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《酒店消防培訓(xùn)》課件2
- 孕期肛門墜脹的健康宣教
- 鼻惡性肉芽腫的健康宣教
- 《計(jì)算機(jī)輔助制》課件
- 白塞氏病的健康宣教
- 睡眠呼吸暫停綜合征的健康宣教
- 孕期室性早搏的健康宣教
- 激素依賴性皮炎的臨床護(hù)理
- 妊娠合并淋巴瘤的健康宣教
- 急性喉氣管炎的健康宣教
- 剪叉式升降工作平臺(tái)作業(yè)專項(xiàng)施工方案24
- ??道走_(dá)區(qū)間測(cè)速卡口專項(xiàng)方案
- 長(zhǎng)安大學(xué)畢業(yè)設(shè)計(jì)方案開(kāi)題報(bào)告
- 內(nèi)鏡逆行沖洗治療闌尾炎
- MOOC 科技英語(yǔ)翻譯-南京航空航天大學(xué) 中國(guó)大學(xué)慕課答案
- 科學(xué)技術(shù)史智慧樹(shù)知到期末考試答案2024年
- (2024年)知識(shí)產(chǎn)權(quán)全套課件(完整)
- 小學(xué)2024-2025學(xué)年勞動(dòng)清單
- 醫(yī)保補(bǔ)辦委托書
- (2024年)大學(xué)生就業(yè)指導(dǎo)
- 小學(xué)六年級(jí)數(shù)學(xué)100道題解分?jǐn)?shù)方程
評(píng)論
0/150
提交評(píng)論