多模態(tài)大模型(MLLMs)輕量化方法研究現(xiàn)狀和展望報告_第1頁
多模態(tài)大模型(MLLMs)輕量化方法研究現(xiàn)狀和展望報告_第2頁
多模態(tài)大模型(MLLMs)輕量化方法研究現(xiàn)狀和展望報告_第3頁
多模態(tài)大模型(MLLMs)輕量化方法研究現(xiàn)狀和展望報告_第4頁
多模態(tài)大模型(MLLMs)輕量化方法研究現(xiàn)狀和展望報告_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多模態(tài)大語言模型(MLLMs)輕量化方法研究現(xiàn)狀和展望摘要多模態(tài)大語言模型(MLLMs)在視覺問答、視覺理解與推理等任務(wù)中展現(xiàn)出卓越的性能,但多模態(tài)大語言模型龐大的模型規(guī)模和高昂的訓(xùn)練、推理成本限制了其在學(xué)術(shù)界和工業(yè)界的廣泛應(yīng)用。因此,研究高效且輕量化的多模態(tài)大語言模型,特別是在邊緣計算場景中,潛力巨大。本文將全面介紹當(dāng)前多模態(tài)大語言模型輕量化的方法及研究現(xiàn)狀,并探討其局限性及未來潛在的發(fā)展方向。一、 多模態(tài)大語言模型概述(一)什么是多模態(tài)大語言模型?多模態(tài)大語言模型是一種創(chuàng)新性的人工智能模型,巧妙地融合了大語言模型與多模態(tài)處理能力。它能夠理解和生成涵蓋多種模態(tài)的數(shù)據(jù),如文本、圖像、視頻、音頻等,并通過多模態(tài)信息的融合實現(xiàn)更廣泛、更復(fù)雜的任務(wù)。多模態(tài)大語言模型不僅具有強大的語言處理能力,還能通過對圖像、視頻或其他模態(tài)的理解,進(jìn)行跨模態(tài)任務(wù)處理,比如視覺問答、視覺推理、多模態(tài)內(nèi)容生成等。(二)為什么要輕量化?多模態(tài)大語言模型的成功主要得益于縮放定律(scalinglaw),即資源投入越多,性能越高。然而,高資源需求限制了其開發(fā)和部署。例如,MiniGPT-v216800GPULLaVA-1.5-Vicuna-13B[3]模型推理需18.2TFLOPS內(nèi)存,資源消耗巨大。目前,主流多模態(tài)大語言模型多由少數(shù)企業(yè)掌控,云端運行模式引發(fā)普及化和隱私保護(hù)擔(dān)憂,同時,高算力需求也限制了邊緣設(shè)備的應(yīng)用,對公平訪問和隱私保護(hù)構(gòu)成挑戰(zhàn)。鑒于此,輕量化多模態(tài)大語言模型的研究日益受到重視,旨在降低資源消耗、提高適用性,同時盡量減少性能損失。二、 多模態(tài)大語言模型輕量化方法研究現(xiàn)狀多模態(tài)大語言模型主要由三個核心模塊組成:視覺編碼器、預(yù)訓(xùn)練大語言模型、以及視覺-語言投影器,如圖1所示。輕量化多模態(tài)大語言模型的優(yōu)化措施主要集中在對上述三個模塊的改進(jìn),并引入了視覺token壓縮技術(shù)和高效的結(jié)構(gòu)設(shè)計。圖1多模態(tài)大語言模型的輕量化架構(gòu)出自論文《EfficientMultimodalLargeLanguageModels:ASurvey》(一)三個核心模塊優(yōu)化視覺編碼器:負(fù)責(zé)接收和處理視覺輸入。輕量化的多模態(tài)大語言模型通常選擇使用預(yù)訓(xùn)練的視覺編碼器模型(覺編碼器在多模態(tài)大語言模型總參數(shù)中的占比較小,其輕量化優(yōu)化的效果不如語言模型顯著,因此大部分輕量化多模態(tài)大語言模型通常仍沿用大規(guī)模多模態(tài)大語言模型中廣泛采用的視覺編碼器。預(yù)訓(xùn)練大語言模型:大語言模型是多模態(tài)大語言模型的核心組件,用于管理多模態(tài)信號并執(zhí)行推理。多模態(tài)大語言模型中獲取小的大語言模型的方案一般分為兩種:一是直接使用小的輕量化模型。輕量化的多模態(tài)大語言模型通常使用參數(shù)少于30億的小型語言模型,如微軟的phi2-2.7B模型[17]和谷歌的Gemma-2B模型[2]。Phi-2模型在特殊數(shù)據(jù)集上訓(xùn)練后,其性能可以匹配使用常規(guī)數(shù)據(jù)集訓(xùn)練的25倍大模型。Phi-3-mini模型[2]可以輕松地在現(xiàn)代手機上本地部署,且其質(zhì)量與Mixtral8x7B[18]模型和GPT-3.5等模型相當(dāng)。二是使用模型壓縮技術(shù)對大語言模型進(jìn)行輕量化處理。一般常用的模型壓縮方法包括:量化,剪枝,知識蒸餾,緊湊的架構(gòu)設(shè)計,動態(tài)網(wǎng)絡(luò)等,這些方法在傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)(如CNN和RNN)中已有廣泛應(yīng)用,而在大語言模型的優(yōu)化中也有了更深入的探索。每種方法的具體實施方案和效果因任務(wù)需求和硬件約束而異,在此不再逐一詳細(xì)介紹。視覺-語言投影器:是連接視覺與文本橋梁,其核心功能是將視覺特征塊映射至文本特征空間。針對此模塊的輕量化,包括四種:一是基于注意力。BLIP2[7]引入了Q-Former,一個輕量級的Transformer,使用一組可學(xué)習(xí)的查詢向量從凍結(jié)的視覺模型中提取視覺特征。CNN。MobileVLMv2[8]提出的LDPv2,通過使用逐點卷積層、平均池化和帶有跳躍連接的PEG模塊,LDPv299.8%的參數(shù),在效率上取得了更好的表現(xiàn)。Mamba。VL-Mamba[9]在其視覺-語言投影器中實2D(VSS)技術(shù),促進(jìn)了多種學(xué)習(xí)方法的融合。四是混合結(jié)構(gòu)。如卷積抽象器通過使用卷積結(jié)構(gòu)高效地建模局部上下文,有助于將視覺特征抽象為任意平方數(shù)的視覺token。(二)視覺token壓縮tokentoken已經(jīng)成為多模態(tài)大語言模型輕量化的關(guān)鍵。通過以下幾種關(guān)鍵技術(shù)來實現(xiàn):多視圖輸入:為了利用低分辨率視覺編碼器處理高分辨率圖像,一種常見的方法是輸入高分辨率圖像的低分辨率全局視圖,和通過分割高分辨率圖像獲得局部視圖。例如,LLaVA-UHD[5]提出了一種圖像模塊化策略,將原始分辨率圖像劃分為更小的可變大小切片,以實現(xiàn)高效且可擴展的編碼。tokentoken態(tài)大語言模型至關(guān)重要,其解決了保持細(xì)粒度細(xì)節(jié)和減少計算復(fù)雜度的雙重挑戰(zhàn)。例如LLaVA-PruMerge[10MADTP[19]提出了tokentoken多尺度信息融合:利用多尺度圖像信息對視覺特征提取至關(guān)重要。這種方法使模型能夠捕捉較小尺度中的細(xì)粒度細(xì)節(jié)和較大尺度中的廣闊背景。例如Mini-Gemini模型[11]包括兩個編碼器,一個用于高分辨率圖像,另一個用于低分辨率視覺嵌入。它提出了塊信息挖掘,通過低分辨率視覺嵌入作為查詢,通過跨注意力從高分辨率候選中檢索相關(guān)的視覺線索。視頻特定方法:視頻理解還需要處理大量幀,這可能會突破大語言模型的上下文窗口處理能力,帶來巨大計算負(fù)擔(dān)。例VideoLLaVA[15LanguageBind[20]構(gòu)建,將視覺表示統(tǒng)一到語言特征空間中,推動基礎(chǔ)大語言模型向統(tǒng)一的語言-視覺大模型發(fā)展,同時避免了巨大的計算負(fù)擔(dān)。(三)高效的結(jié)構(gòu)高效的結(jié)構(gòu)是通過優(yōu)化模型結(jié)構(gòu)或算法設(shè)計,以更少的資源實現(xiàn)相近甚至更高的性能,是多模態(tài)大語言模型輕量化的關(guān)(MoE)、Mamba和推理加速。專家混合模型:專家混合模型通過調(diào)節(jié)模型參數(shù)的總數(shù)來增強模型容量,同時保持激活參數(shù)不變,從而不會顯著影響推理速度。MoE-LLaVA[12]提出了一種基于專家混合模型的稀疏M模態(tài)大語言模型框架,能夠有效增加參數(shù)數(shù)量,而不影響計算效率。MambaMamba[21]是一種新型的高效序列建模方法,專為高效處理信息密集型數(shù)據(jù)(如語言建模)而設(shè)計。Cobra[13]將MambaMamba度更快,能克服視覺錯覺和空間關(guān)系判斷難題,在預(yù)測基準(zhǔn)中LLaVA,43%。推理加速:在模型推理階段,根據(jù)不同的任務(wù)特性,調(diào)整模型架構(gòu),加快推理速度。SPD[14]提出了通過僅使用語言模型進(jìn)行的推測解碼,以提高推理效率,通過將語言模型作為推測性解碼模型,跳過了圖像token及其相關(guān)處理組件的需求。三、展望多模態(tài)大語言模型的輕量化發(fā)展仍處于初期階段,仍有很大的改進(jìn)空間。(一)突破多模態(tài)信息處理的局限是關(guān)鍵。輕量化的多模態(tài)大語言模型在處理多模態(tài)信息時面臨挑戰(zhàn),通常僅能接受單一圖像,這限制了能夠處理更多元模態(tài)標(biāo)記的復(fù)雜模型的進(jìn)一步拓展。而這類復(fù)雜模型對于對于理解長視頻和分析包含圖像與文本混合的長篇文檔等應(yīng)用場景有著極為關(guān)鍵的價值,可以創(chuàng)造出更為多功能和強大的系統(tǒng)。(二)輸入輸出模態(tài)擴展是未來發(fā)展的重點。當(dāng)前主要的輕量化多模態(tài)大語言模型支持的是雙輸入模態(tài)-圖像和文本,以及單一輸出模態(tài)-文本,但現(xiàn)實世界中的模態(tài)遠(yuǎn)不止于此。未來,通過擴大高效多模態(tài)大語言模型的輸入模態(tài)范圍,以適應(yīng)更多樣化的輸入類型,并增強其生成能力,將顯著增強其多功能性,并拓寬其應(yīng)用領(lǐng)域。(三)可在邊緣部署的輕量化多模態(tài)大語言模型將推動機器人等智能設(shè)備發(fā)展。輕量化的多模態(tài)大語言模型將賦予終端設(shè)備更高效、更智能且多模態(tài)的處理能力,使智能設(shè)備得以與現(xiàn)實世界無縫互動。特別在機器人領(lǐng)域,輕量化多模態(tài)大語言模型將極大提升機器人對環(huán)境理解的準(zhǔn)確性,增強任務(wù)執(zhí)行的效率,并促進(jìn)人機之間更加自然流暢的交流與協(xié)作。[參考文獻(xiàn)]XiangxiangChu,LimengQiao,XinyangLin,ShuangXu,Yang,YimingHu,FeiWei,XinyuZhang,BoZhang,Wei,etal.Mobilevlm:Afast,reproducibleandstrongvisionlanguageassistantformobiledevices.arXivpreprintarXiv:2312.16886,2023.YizhangJin,JianLi,YexinLiu,TianjunGu4,KaiWu,ZhengkaiJiang,MuyangHe,BoZhao,XinTan,ZhenyeYabiaoWang,ChengjieWangandLizhuangMa.EfficientMultimodalLargeLanguageModels:ASurvey.arXivpreprintarXiv:2405.10739,2024Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee.Visualinstructiontuning.InNeurIPS,2023.AlecRadford,JongWookKim,ChrisHallacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastry,AmandaAskell,PamelaMishkin,JackClark,etal.Learningvisualmodelsfromnaturallanguagesupervision.Internationalconferenceonmachinelearning,pages8763.PMLR,2021.RuyiXu,YuanYao,ZonghaoGuo,JunboCui,ZanlinChunjiangGe,Tat-SengChua,ZhiyuanLiu,MaosongSun,GaoHuang.Llava-uhd:anlmmperceivinganyaspectratioandhigh-resolutionimages,2024.MukulGagrani,RaghavvGoel,WonseokJeon,JunyoungMinguLee,andChristopherLott.Onspeculativedecodingformultimodallargelanguagemodels,2024.JunnanLi,DongxuLi,SilvioSavarese,andStevenHoi.Blip-2:Bootstrappinglanguage-imagepretrainingwithimageencodersandlargelanguagemodels.Inconference on machine learning, pages 19730–19742. 2023.XiangxiangChu,LimengQiao,XinyuZhang,ShuangXu,Wei,YangYang,XiaofeiSun,YimingHu,XinyangLin,Zhang,etal.Mobilevlmv2:Fasterandstrongerbaselineforvisionlanguagemodel.arXivpreprintarXiv:2402.03766,2024.YanyuanQiao,ZhengYu,LongtengGuo,SihanChen,Zhao,MingzhenSun,QiWu,andJingLiu.Vl-mamba:Exploringstatespacemodelsformultimodallearning.arXivpreprintarXiv:2403.136002024.YuzhangShang,MuCai,BingxinXu,YongJaeLee,andYanYan.Llava-prumerge:Adaptivetokenreductionforefficientlargemultimodalmodels,2024.YanweiLi,YuechenZhang,ChengyaoWang,ZhishengYixinChen,RuihangChu,ShaotengLiu,andJiayaJia.gemini:Miningthepotentialofmulti-modalitylanguagemodels.arXivpreprintarXiv:2403.18814,2024.BinLin,ZhenyuTang,YangYe,JiaxiCui,BinZhu,PengJin,JunwuZhang,MunanNing,andLiYuan.Moe-llava:Mixtureofexpertsforlargevision-languagemodels.preprintarXiv:2401.15947,2024.HanZhao,MinZhang,WeiZhao,PengxiangDing,SitengHuang,andDonglinWang.Cobra:Extendingmambatomodallargelanguagemodelforefficientinference.preprintarXiv:2403.14520,2024.MukulGagrani,RaghavvGoel,WonseokJeon,JunyoungMinguLee,andChristopherLott.Onspeculativedecodingmultimodallargelanguagemodels,2024.BinLin,BinZhu,YangYe,MunanNing,PengJin,andYuan.Video-llava:Learningunitedvisualrepresentationalignmentbeforeprojection.arXivarXiv:2311.10122,2023.JunChen,DeyaoZhu,XiaoqianShen,XiangLi,ZechunPengchuanZhangandMohamedElhoseiny.Minigpt-v2:languagemodelasaunifiedinterfaceforvision-languagemulti-tasklearning.arXivpreprintarXiv:2310.09478,2023.MojanJavaheripi,SebastienBubeck,MarahAbdin,Aneja,SebastienBubeck.Phi-2:Thesurprisingpowersmalllanguagemodels.MicrosoftResearchBl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論