大模型輕量化技術(shù) 2024

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-11-19 格式：DOCX 頁(yè)數(shù)：227 大?。?.89MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩222頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大模型輕量化技術(shù)大模型輕量化技術(shù)張鵬語(yǔ)言模型背景l(fā)語(yǔ)言模型是自然語(yǔ)言處理任務(wù)中的核心技自然語(yǔ)言處理信息檢索數(shù)字媒宣多模態(tài)內(nèi)容理解語(yǔ)言模型的發(fā)展歷史和關(guān)鍵難題語(yǔ)義概率空間語(yǔ)義概率空間↓總體思路：用輕量化的方式解決大模型實(shí)際應(yīng)用部署大模型參數(shù)規(guī)模Param:~0.3BBERTParam:~11BParam:~1800BParam:~540BParam:~Param:~1800BParam:~540BParam:~170BPaLMChatGPT/GPT42018.102019.102020.052022.10!!高存儲(chǔ)成本和計(jì)算成本推理速度受限大模型輕量化目標(biāo)預(yù)訓(xùn)練語(yǔ)言模型壓縮后的預(yù)訓(xùn)練語(yǔ)言模型大模型輕量化的細(xì)粒度解析N×⊕⊕ ⊕⊕ 參數(shù)量占比較大，對(duì)存儲(chǔ)及顯存計(jì)算造成壓力多頭注意力計(jì)算造成大量的計(jì)算成本，影響計(jì)算速度，參數(shù)量占比較大。此外，KVCache部分使用空間換取時(shí)間，造成緩存壓力。QKV作為中間表示存于內(nèi)存中，也會(huì)對(duì)存儲(chǔ)造成壓力Embedding層，語(yǔ)義表示的初始化，影響效果，占據(jù)一定的參數(shù)量大模型輕量化技術(shù)的意義大模型輕量化技術(shù)為模型在實(shí)際應(yīng)用和發(fā)展中硬件模型壓縮推理加速模型硬件模型壓縮推理加速模型型型輕量化技術(shù)總覽化化減少模型計(jì)算復(fù)雜度和內(nèi)存占用，同時(shí)盡可能保持輕量化相關(guān)理論模型參數(shù)數(shù)量模型大小模型參數(shù)數(shù)量模型大小壓縮存儲(chǔ)空間可以降低部署成本，提高模型在存儲(chǔ)模型參數(shù)越多，通常意味著在一次前向傳播中所需的浮點(diǎn)運(yùn)輕量化相關(guān)理論u輕量化模型減輕硬件壓力輕量化相關(guān)理論u輕量化模型評(píng)估指標(biāo)總內(nèi)存samplethroughput=廠輕量化相關(guān)理論u輕量化模型評(píng)估指標(biāo)T=Tio+Tattention+Tffn輕量化相關(guān)理論u輕量化模型評(píng)估指標(biāo)分類任務(wù)生成任務(wù)），文本生成分類任務(wù)信息抽取），……推理效果（performance）），輕量化技術(shù)總覽化化減少模型計(jì)算復(fù)雜度和內(nèi)存占用，同時(shí)盡可能保持減少模型計(jì)算復(fù)雜度和內(nèi)存占用，同時(shí)盡可能保持量化技術(shù)u量化基本理論 7 7原矩陣WFP16內(nèi)存需求大，占用位寬高量化矩陣WINT8內(nèi)存需求小，占用位寬低以INT8對(duì)稱量化為例，在存儲(chǔ)權(quán)重參數(shù)時(shí),將16位浮點(diǎn)數(shù)組成的矩陣WFP16經(jīng)量化存儲(chǔ)為8位整數(shù)矩陣為WINT8：其中，round()為近似取整函數(shù)，scale為縮放因子：WINT8內(nèi)所有值均為[?127,127]內(nèi)的整數(shù)。量化技術(shù)u量化基本理論大模型量化是一種將深度學(xué)習(xí)模型的參數(shù)從高精度（16位浮點(diǎn)數(shù)，F(xiàn)P16）轉(zhuǎn)換為低精度（如8位整數(shù)，IN要進(jìn)行解量化，即將量化后的整數(shù)矩陣WINT8映射7FP16=WINT8.scale解量化后的矩陣FP16相對(duì)于原矩陣WFP16有一定量化矩陣WINT8量化矩陣WINT8量化技術(shù)u低比特量化的難點(diǎn)原矩陣XFP16解量化矩陣FP16當(dāng)大模型參數(shù)量大于當(dāng)大模型參數(shù)量大于6.7B時(shí)，經(jīng)激活層生成的矩陣X存在占總參數(shù)量0.1%的異常值（outlier這些異常值導(dǎo)致量化時(shí)矩陣一部分正常值被量化為零量化技術(shù)LLM.int8()采用混合精度量化的方法，保持X矩陣內(nèi)的異常值為16位浮點(diǎn)數(shù)（FP16）且不參量化技術(shù)普通量化方法為直接對(duì)w和x分別做量化，普通量化方法為直接對(duì)w和x分別做量化，由于異常值的存在，x難以被高精度量化：Y=X,WSmoothQuant方法利用w矩陣的參數(shù)分布均勻，無(wú)異常值的特點(diǎn)，從數(shù)學(xué)等價(jià)的角度出發(fā)，令w矩陣“代償”一部分異常值的影響，實(shí)現(xiàn)了w和x的高精度INT8量化技術(shù)………LinJ,TangJ,TangH,etalLinJ,TangJ,TangH,etalFrantarE,AshkboosS,HoeflerT,etal.GPTQ:Accuratepost-trainingquantizationforgenerativepre-ShaoW,ChenM,ZhangZ,etal.Omniquant:OmnidirectionallycalibratedquantizationKimS,HooperC,GholamiA,etal.SqueezerLLM:Dense-and-SparseQuantization[C].ICML2024稀疏化技術(shù)直接移除權(quán)重矩直接移除權(quán)重矩陣中最不重要的權(quán)重值，使得它移除整個(gè)行、列、卷積核或者神經(jīng)00000模型稀疏化通過(guò)減少參數(shù)的密集度來(lái)加快計(jì)算速度和減少尋找一種方法來(lái)確定模型中哪些參數(shù)對(duì)模型的輸出貢獻(xiàn)較小減。這樣可以在保持模型性能的前提下，大幅減少模型的參基于結(jié)構(gòu)式的稀疏策略對(duì)參數(shù)進(jìn)行剪枝或置零，以充分利用參數(shù)的稀疏性來(lái)加速計(jì)算過(guò)程。例如，在矩陣乘法等運(yùn)算中，稀疏化技術(shù)不必要的計(jì)算。例如，使用局部注意力或分稀疏化技術(shù)結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由，結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由，會(huì)導(dǎo)致模型準(zhǔn)確率的大幅下降，而采用非結(jié)構(gòu)化稀疏則可由于GPU中的張量核專門設(shè)計(jì)用于加速稠密矩陣乘法計(jì)算的專用單元，對(duì)非結(jié)構(gòu)化稀疏矩陣乘法計(jì)算的效率較低，因此會(huì)造成模型推理速度稀疏化技術(shù)u非結(jié)構(gòu)化稀疏針對(duì)非結(jié)構(gòu)化稀疏矩陣乘法較慢的問(wèn)題，F(xiàn)lash-LLM提出將稀疏矩陣轉(zhuǎn)化為密集矩稀疏化技術(shù)u非結(jié)構(gòu)化稀疏解決方案解決方案：Flash-LLM提出了一種雙緩沖計(jì)算重疊的計(jì)算流水線。計(jì)算重疊：可以看出每次迭代時(shí)，優(yōu)勢(shì)：采用這種新的流水線進(jìn)行計(jì)算能夠減少GPU的空閑時(shí)間。有效提升了模型推理的效率。都會(huì)在一個(gè)緩沖區(qū)加載數(shù)據(jù)優(yōu)勢(shì)：采用這種新的流水線進(jìn)行計(jì)算能夠減少GPU的空閑時(shí)間。有效提升了模型推理的效率。雙緩沖計(jì)算重疊的計(jì)算流水線稀疏化技術(shù)Flash-LLM與多個(gè)baselines計(jì)算上述結(jié)果表明，F(xiàn)lash-LLM在非結(jié)構(gòu)化稀疏矩陣乘知識(shí)蒸餾u知識(shí)蒸餾基礎(chǔ)理論StudentStudent模型較小的、輕量化的模型性能較好、復(fù)雜度較高的模型），知識(shí)蒸餾的核心公式為蒸餾損失函數(shù)：L=aLCP+(1-a)LXP其中i7E是學(xué)生模型的交叉熵?fù)p失，ikD是學(xué)生模型與教師模型軟標(biāo)簽之間的蒸餾損失。知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾黑盒（Black-Box）黑盒（Black-Box）知識(shí)蒸餾中，學(xué)生模型只能訪問(wèn)教師模型的輸出（閉源大模型而無(wú)法直接訪問(wèn)教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)或中間其中黑盒知識(shí)蒸餾又分為“思維鏈蒸餾”、“上下文學(xué)習(xí)蒸餾”以及“指令遵循蒸餾”三白盒（White-Box）知識(shí)蒸餾中，學(xué)生模型不僅可以訪問(wèn)教師模型的輸出，還可以訪問(wèn)教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)和中間層的激活值（開(kāi)學(xué)生模型可以直接學(xué)習(xí)教師模型的中間層特征GuY,DongL,WeiF,etal.MiniLLM:KnowledgedistiGuY,DongL,WeiF,etal.MiniLLM:Knowledgedisti知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾標(biāo)準(zhǔn)知識(shí)蒸餾中的前向KL散度（ForwardKLD）會(huì)迫使學(xué)生模型試圖覆蓋教師模型的所有細(xì)節(jié)信息，即使那些細(xì)節(jié)對(duì)任務(wù)并不重要，這在大模型知識(shí)蒸餾中是不實(shí)際的，因?yàn)樾∧Ｐ偷哪芰W(xué)習(xí)能力的同時(shí)，從教師模型中學(xué)習(xí)對(duì)于學(xué)生模型最重要的知識(shí)，以避免資源的浪費(fèi)，從而在GuY,DongL,WeiF,etal.MiniLLM:KnowledgedistiGuY,DongL,WeiF,etal.MiniLLM:Knowledgedisti知識(shí)蒸餾u大語(yǔ)言模型的知識(shí)蒸餾單步分解：這是將每步的生成質(zhì)量從損失的梯度中單獨(dú)提出來(lái)，以減少教師指導(dǎo)的采樣：在采樣y時(shí)混合教師和學(xué)生模型的分布。GuY,DongL,WeiF,etal.MiniLLM:KnowledgedistiGuY,DongL,WeiF,etal.MiniLLM:Knowledgedisti知識(shí)蒸餾與其他知識(shí)蒸餾方法相比，MiniLLM方法學(xué)到了MiniLLM方法在各種小規(guī)模的學(xué)生模型上達(dá)到超GuY,DongL,WeiF,etal.MiniLLM:KnowledgedistiGuY,DongL,WeiF,etal.MiniLLM:Knowledgedisti低秩分解u基本理論經(jīng)典分解理論：PCA分解低秩分解u基本理論通過(guò)將模型參數(shù)轉(zhuǎn)為低秩形式，我們可以保留50%的矩陣秩，即可壓縮超過(guò)20億的低秩分解u基本理論x——分解結(jié)構(gòu)更為復(fù)雜的大模型參數(shù)x可以被視作一種高階PCA.將張量分解為ACsBxx1r1≈2//r13//r2…rN-1N;1rN-1rN低秩分解計(jì)算誤差u基本理論計(jì)算誤差參數(shù)矩陣W’矩陣分解技術(shù)R維×R維R維×R維裁剪實(shí)現(xiàn)參數(shù)壓縮r維×r維×r維分解張量B’低秩分解張量網(wǎng)絡(luò)u基本理論張量網(wǎng)絡(luò)h1hNh2…h(huán)N#1h1hNAh1hNrN#1…rh1hNrN#1…h(huán)1R1h1r1R2R1R2… r1r1…h(huán)NRN#1OhNrN#1O混合張量分解技術(shù)參數(shù)效果速度參數(shù)效果速度FFN混合張量分解技術(shù)優(yōu)勢(shì)：簡(jiǎn)單實(shí)現(xiàn)，計(jì)算速度快。缺點(diǎn)：高秩情況下，參數(shù)壓縮效果有限。低秩場(chǎng)景中，效果無(wú)法保證。優(yōu)勢(shì)：具有強(qiáng)大的參數(shù)壓縮能力。缺點(diǎn)：在高秩情況下，復(fù)雜度較高，影響速度。在低秩場(chǎng)景中，速度快但難以適應(yīng)，影響效果?；旌蠌埩糠纸饧夹g(shù)Ratio是參數(shù)壓縮比，S(pi)為樹莓派設(shè)備上速度提升倍數(shù)，S(Intel)為在不同的壓縮倍數(shù)下，它在準(zhǔn)確率語(yǔ)素增強(qiáng)的低秩近似技術(shù)通過(guò)語(yǔ)素詞嵌入的低秩近似解決原始詞向量矩陣的參 v=?=1 v=?=1vjkKimY.,KimK.M,SK.Adaptivecompress語(yǔ)素增強(qiáng)的低秩近似技術(shù)形態(tài)素矩陣Morpheme：構(gòu)成一個(gè)詞的基本單位為形態(tài)素賦予意義，引入先驗(yàn)知識(shí)低維向量：張量積單詞嵌入的基本單元形態(tài)素矩陣Morpheme：構(gòu)成一個(gè)詞的基本單位為形態(tài)素賦予意義，引入先驗(yàn)知識(shí)低維向量：張量積單詞嵌入的基本單元詞表矩陣濱賓嬪髕通過(guò)少數(shù)量的、低維的語(yǔ)素向量通過(guò)少數(shù)量的、低維的語(yǔ)素向量替代原始的詞向量表示矩陣，保持了模型性能，從而語(yǔ)素增強(qiáng)的低秩近似技術(shù)LORA:LOW-RANKADAPLoRA已經(jīng)成為大模型時(shí)代最常用的模型微調(diào)方式，有充分的研究?jī)r(jià)值。例如，近期的研究將LoRA與MoE架構(gòu)結(jié)合，用世界知識(shí)來(lái)解決下游任務(wù)，以減輕世界知識(shí)參數(shù)共享Multi-headAttentionMulti-headAttentionMHAGrouped-QueryAttentionGQAMulti-QueryAttentionMQA這種共享資源的方式大大減少了需要處理的內(nèi)容，從而AinslieJ,Lee-ThorpJ,deJongM,AinslieJ,Lee-ThorpJ,deJongM,KV-cache核心思想：將之前計(jì)算的鍵和值存儲(chǔ)起來(lái)KV-cache核心思想：將之前計(jì)算的鍵和值存儲(chǔ)起來(lái)，當(dāng)處理新的輸入時(shí)，可以直接利用這些已緩存的鍵和值，而不是重新計(jì)算整個(gè)序列的鍵和值。效率提升：減少重復(fù)計(jì)算，特別是在處理長(zhǎng)序列時(shí)，可以顯著提高處理速度；實(shí)時(shí)性增強(qiáng)：適用于實(shí)時(shí)更新的場(chǎng)景，如在線學(xué)習(xí)或流式處理，可快速響應(yīng)新數(shù)據(jù)。多查詢注意力（Multi-QueryAttention,MQ分組查詢注意力（Grouped-QueryAttention,GQA）AinslieJ,Lee-ThorpJ,deJongM,AinslieJ,Lee-ThorpJ,deJongM,參數(shù)共享MQA和GQA在不同數(shù)據(jù)集上推理速度、與同體量的MHA大模型相比與同體量的MHA大模型相比，GQA的平均推理時(shí)間加速了約5.39倍，在多個(gè)數(shù)據(jù)集上出現(xiàn)性能的輕微衰減。與MQA相比，GQA保持了更高的性能表現(xiàn)。與同體量的MHA大模型相比，MQA的平均推理時(shí)間加速了約6.29倍，但在多個(gè)數(shù)據(jù)集上出現(xiàn)性能的小幅衰減。采用MQA和GQA兩種注意力后模型的平均推理時(shí)間縮短了5-6倍，同時(shí)模型的平均性能幾乎不變。AinslieJ,Lee-ThorpJ,deJongM,AinslieJ,Lee-ThorpJ,deJongM,結(jié)合硬件特點(diǎn)的技術(shù)結(jié)合硬件特點(diǎn)的技術(shù)并行解碼策略可減少7.2%的推理時(shí)間，提升吞吐量，不影響模型效果Computing(82%Time)Sampling(10%Time)Detokenize(8%Time) 遞歸解碼階段，可以將Detokenize和下一個(gè)token的Computing計(jì)算在CPU和GPU上并行計(jì)算，掩蓋掉前面生成單詞的Detokenize的時(shí)間各類輕量化方法總結(jié)從以下多個(gè)角度進(jìn)行評(píng)價(jià)是是否是是否是是是是是是是是是否是是是是量子計(jì)算u大模型輕量化的新研究路徑經(jīng)典計(jì)算機(jī)架構(gòu)上的?模型輕量化技術(shù)量?計(jì)算架構(gòu)上的輕量化技術(shù)萬(wàn)能（通用）近似性定理隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長(zhǎng)的傅里葉序列表表達(dá)能力大量的參數(shù)和有限的表示精度量子隱式神經(jīng)表征隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長(zhǎng)的傅里葉序列表表達(dá)能力大量的參數(shù)和有限的表示精度探索數(shù)據(jù)重上傳量子線路的指數(shù)級(jí)增長(zhǎng)的傅隨量子比特?cái)?shù)量指數(shù)增長(zhǎng)的傅里葉序列表達(dá)能力更少的參數(shù)和更精確的表示隨量子比特?cái)?shù)量指數(shù)增長(zhǎng)的傅里葉序列表達(dá)能力更少的參數(shù)和更精確的表示JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.Quan量子隱式神經(jīng)表征在最佳條件下，數(shù)據(jù)重上傳量子電路表示傅立葉級(jí)數(shù)的能力隨著電路的分析數(shù)據(jù)重上傳電路的頻譜分析數(shù)據(jù)重上傳電路的頻譜1)數(shù)據(jù)重上傳量子線路的本質(zhì)是傅里葉級(jí)數(shù)：fx1)數(shù)據(jù)重上傳量子線路的本質(zhì)是傅里葉級(jí)數(shù)：fx=∑k,Jak,JeiΛk一ΛJ.x3)在線性層的幫助下，頻譜可以進(jìn)一步擴(kuò)展，從(2dL+JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.Quan量子隱式神經(jīng)表征從理論上揭示了某種從理論上揭示了某種量子線路具有指數(shù)級(jí)增長(zhǎng)的傅里葉序量子機(jī)器學(xué)習(xí)從理論到實(shí)踐的一次跨越，為人工智能提供了量??JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.Quan量子隱式神經(jīng)表征在信號(hào)表征、超分辨率和圖像生成等眾多任務(wù)中展現(xiàn)出JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.Quan未來(lái)展望人工智能也許也會(huì)像通用計(jì)算機(jī)的發(fā)展歷程一樣不斷被輕量化，其中量子機(jī)器學(xué)習(xí)有20世紀(jì)第一臺(tái)通用計(jì)算機(jī)微型個(gè)人電腦?0量子AI模型大語(yǔ)言模型請(qǐng)批評(píng)指正請(qǐng)批評(píng)指正LLMLLM稀疏輕量化技術(shù)為什么考慮稀疏化稀疏化技術(shù)具備較強(qiáng)降低計(jì)算成本與速目錄 01稀疏化的背景 03在大模型上的稀疏化稀疏輕量化背景在神經(jīng)網(wǎng)絡(luò)中，LeCun等人提出了OptimalBrainDamage方法，該方法通過(guò)稀疏輕量化背景Olshausen和Field的研究表明，稀疏縮信息，使其在神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)中得到了廣泛應(yīng)用（Ol稀疏輕量化背景2000年代，壓縮感知理論的提出推動(dòng)了稀疏輕量較少采樣重構(gòu)信號(hào)，可以在不顯著損失信息的情模型剪枝技術(shù)被提出，通過(guò)移除冗余參數(shù)，在保持模型性能稀疏輕量化背景大模型稀疏化通過(guò)減少參數(shù)的密集度來(lái)減少計(jì)算成本和存儲(chǔ)成本。主要分為結(jié)構(gòu)稀疏化和000000稀疏輕量化背景結(jié)構(gòu)化與非結(jié)構(gòu)化的對(duì)比非結(jié)構(gòu)化：非結(jié)構(gòu)化稀疏在保持模型精度方面往往剪枝后的稀疏性沒(méi)有規(guī)則性，使得硬件難以高效稀疏輕量化背景中間表示的稀疏化稀疏輕量化背景大模型的自適應(yīng)計(jì)算輕量化旨在通過(guò)動(dòng)態(tài)分配計(jì)算資源以優(yōu)化模型性能和效率。根據(jù)輸入數(shù)據(jù)的復(fù)雜度和模型的推理需求，自適應(yīng)地調(diào)整計(jì)算路徑，從而在保證精度的前自適應(yīng)激活策略：gi(x)為門控函數(shù)，用于選擇性激活對(duì)應(yīng)的子網(wǎng)絡(luò)fi(x)。早停策略：根據(jù)輸入數(shù)據(jù)的復(fù)雜度動(dòng)態(tài)決定網(wǎng)絡(luò)層的深度，在滿足一定條件時(shí)提前稀疏輕量化背景稀疏輕量化背景目錄 01稀疏化的背景 03在大模型上的稀疏化本章脈絡(luò)大模型稀疏化的過(guò)去——Transformer時(shí)代結(jié)構(gòu)性稀疏一般存在兩個(gè)問(wèn)題結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由，會(huì)導(dǎo)致模大模型稀疏化的過(guò)去——Transformer時(shí)代大模型稀疏化的過(guò)去——Transformer時(shí)代大模型稀疏化的過(guò)去——Transformer時(shí)代大模型稀疏化的過(guò)去——Transformer時(shí)代在僅降低1%效果的約束下，滿足約束條件稀疏稀疏注意力機(jī)制加速二次復(fù)雜度利用稀疏化技術(shù)進(jìn)行低秩逼近，減少不必要的計(jì)算大模型稀疏化的過(guò)去——Transformer時(shí)代0(N;)→0(NN)大模型稀疏化的過(guò)去——Transformer時(shí)代O(N;)→O(n×(w+g))大模型稀疏化的過(guò)去——Transformer時(shí)代ON;→OnlognorOnIjI=Argmax(u,:j)XS,I,=sort(X,I)輸入序列神經(jīng)聚類過(guò)程神經(jīng)聚類注意力：對(duì)每組查詢（Query）、鍵（Key）和值（Value）塊進(jìn)行并行的注意力機(jī)制計(jì)算。N2ModelComplexity：O→O(NN)ZMi=Attention(QMi,KMi,VMi)ZM=Blockconcat(ZM1,N2ModelComplexity：O→O(NN)(1)翻譯任務(wù)(2分類任務(wù)(3)時(shí)間測(cè)試(4)顯存測(cè)試Thelongerthesequence,themorenoticeabletheefficiencyimprovementyS,m=∑ixiDi,SEi,m的方式計(jì)算輸出。同時(shí)可以結(jié)合二維卷積層來(lái)大模型稀疏化的過(guò)去——Transformer時(shí)代減少稀疏化技術(shù)實(shí)現(xiàn)本身的時(shí)間成本，也是大模型稀目錄 01稀疏化的背景 03在大模型上的稀疏化稀疏化+低秩近似本章脈絡(luò)稀疏化+低秩近似LLM稀疏化技術(shù)大語(yǔ)言模型的參數(shù)量更多，不同參數(shù)剪枝元素間存在大量的依賴性關(guān)系，貿(mào)然剪枝會(huì)MLP型分組Attention型分組層型分組LoRA微調(diào)剪枝LLM稀疏化技術(shù)LoRA微調(diào)剪枝重要性估計(jì)重要性估計(jì)方面：利用損失的偏差來(lái)度量來(lái)移除對(duì)模型預(yù)測(cè)影響最小LLM稀疏化技術(shù)下，效果出現(xiàn)顯著下降，而LLM稀疏化技術(shù)判斷推理是否該提前終止?這是一種不需要犧牲帶寬的LLM加速方法；?在LLM推理過(guò)程中，可以對(duì)簡(jiǎn)單實(shí)例使用淺層，對(duì)困難實(shí)例使用深層；?對(duì)LLM的特征進(jìn)行統(tǒng)計(jì)分析并選擇logits構(gòu)建特征，采用高效的SVM和CRF等方法來(lái)促進(jìn)FanFanS,JiangX,LiX,etal.NotalllayersofllmsarenecessaryduringinfLLM稀疏化技術(shù)早停思想本身是基于一種普適性的啟發(fā)，具備不同復(fù)雜度的輸入所需要的層數(shù)是有差別的，現(xiàn)有的方法通過(guò)引入外部“控制器”的方式斷是否可以通過(guò)擴(kuò)散模型一些自適應(yīng)控制計(jì)算的方式（ChengLu,2022LLM稀疏化技術(shù)挑戰(zhàn)：在巨型LLM上，一次性剪枝方法通常需要花費(fèi)大量的時(shí)間來(lái)計(jì)算完整的最優(yōu)解。計(jì)算復(fù)雜度：o(d)→o(didden)基于OBS更新方法的理論，當(dāng)修剪某一參數(shù)時(shí)，此時(shí)調(diào)整其他column對(duì)應(yīng)的權(quán)重，并且局部更新Hessian矩陣，將會(huì)彌補(bǔ)剪枝該參LLM稀疏化技術(shù)LLM稀疏化技術(shù)LLM稀疏化技術(shù)如下公式所示，,,j為“重要性”累積值，一旦其等于0，此標(biāo)記被丟棄，其效果是不可逆的，因?yàn)樗鼘?duì)所LLM稀疏化技術(shù)LLM稀疏化技術(shù)以上方法傾向于選擇值較小的元素進(jìn)行稀疏化操作，進(jìn)一步能否通過(guò)觀察數(shù)據(jù)分布，通過(guò)數(shù)據(jù)分布的特點(diǎn)提出更合理的稀疏化策略也LLM稀疏化技術(shù)；（LLM稀疏化技術(shù)提出了Heavy-HittersOracle（H），LLM稀疏化技術(shù)將三大主流推理系統(tǒng)DeepSpeedZero-Inference、HuggingFaceAcceleratFlexGen的吞吐量提升了最多29倍、29倍和3倍。在相同LLM稀疏化技術(shù)能否建模更高階的動(dòng)態(tài)子模優(yōu)化算法，設(shè)計(jì)KVcache驅(qū)逐策LLM稀疏化技術(shù)參數(shù)存儲(chǔ)在閃存中產(chǎn)生的問(wèn)題在模型推理時(shí)，參數(shù)存儲(chǔ)在閃存中產(chǎn)生的問(wèn)題在模型推理時(shí)，頻繁地從閃存中讀取對(duì)應(yīng)的參數(shù)會(huì)花費(fèi)大量時(shí)間，由于大模型的參數(shù)量巨大，端側(cè)的DRAM容量有限，為了將大模型部署在端側(cè)，只能將部分模型參數(shù)存儲(chǔ)在閃存中。在模型推理時(shí)，如若需要使用相關(guān)參數(shù)，則從閃存中讀取參數(shù)并使LLM稀疏化技術(shù)窗口化實(shí)現(xiàn)原理：窗口化實(shí)現(xiàn)原理：窗口化技術(shù)通過(guò)設(shè)定一個(gè)“窗口”，將推理過(guò)程中一部分神經(jīng)元的激活狀態(tài)保留在DRAM中，而不是每次都從閃存中重新加載這些神經(jīng)元的數(shù)據(jù)。顯著減少了與閃存之間的數(shù)據(jù)傳輸。解決方案一：減少參數(shù)的重復(fù)讀取，通過(guò)“窗口化”保留下次LLM稀疏化技術(shù)解決方案二：采用“行列捆綁”技術(shù)，加快解決方案二：采用“行列捆綁”技術(shù)，加快參數(shù)讀取特點(diǎn)：參數(shù)讀取特點(diǎn)：在讀取數(shù)據(jù)量相同的情況下，讀取連續(xù)存儲(chǔ)在一起的參數(shù)的速度會(huì)遠(yuǎn)遠(yuǎn)快于讀取分散存儲(chǔ)的參數(shù)。FFN神經(jīng)元激活特點(diǎn)：行列捆綁技術(shù)：將FFN中上下投影層的i行i列捆綁存儲(chǔ)在同一內(nèi)存中，方便連續(xù)讀取。在FFN中，第i個(gè)神經(jīng)元的激活與上投影層的第i列和下投影層的第i行列捆綁技術(shù)：將FFN中上下投影層的i行i列捆綁存儲(chǔ)在同一內(nèi)存中，方便連續(xù)讀取。行列捆綁示意圖LLM稀疏化技術(shù)LLM稀疏化技術(shù)智能手機(jī)中部署LLM的問(wèn)題智能手機(jī)的內(nèi)存容量有限，模型參

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大模型輕量化技術(shù) 2024

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大模型輕量化技術(shù) 2024

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔