謝春宇:多模態(tài)大模型:開放世界理解_第1頁
謝春宇:多模態(tài)大模型:開放世界理解_第2頁
謝春宇:多模態(tài)大模型:開放世界理解_第3頁
謝春宇:多模態(tài)大模型:開放世界理解_第4頁
謝春宇:多模態(tài)大模型:開放世界理解_第5頁
已閱讀5頁,還剩92頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多模態(tài)大模型:開放世界理解謝春宇/360多模態(tài)團(tuán)隊負(fù)責(zé)人DataFunSummit#202422圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐什么是大模型大算力大數(shù)據(jù)大大算力大數(shù)據(jù)大參數(shù)什么是大模型大參數(shù)大算力大數(shù)據(jù)大參數(shù)大算力大數(shù)據(jù)背景o人工智能AGI,我們需要什么?ChatGPT的發(fā)布標(biāo)志著自然語言處理技術(shù)邁入了一個全新的階段。自2022年底亮相以來,它憑借其驚人的語言生成能力,迅速成為AI領(lǐng)域的焦點。ChatGPT能夠進(jìn)行連貫、深度的對話,甚至創(chuàng)作詩歌、撰寫文章,展現(xiàn)出了前所未有的創(chuàng)造力和理解力。這一突破不僅激發(fā)了公眾對于AI技術(shù)的興趣,還加速了科技界對通用人工智能(AGI)的研究步伐。在教育、寫作、娛樂等多個領(lǐng)域,ChatGPT的應(yīng)用潛力正在被不斷挖掘。教育工作者利用它輔助教學(xué),作家借助它激發(fā)靈感,企業(yè)則將其融入客戶服務(wù),提高了效率與體驗。同時,ChatGPT也引發(fā)了關(guān)于AI倫理、隱私保護(hù)及就業(yè)市場變革的廣泛討論,促使社會各界思考如何在享受AI紅利的同時,建立相應(yīng)的監(jiān)管框架,確保技術(shù)的健康發(fā)展??傊?,ChatGPT的出現(xiàn)不僅是技術(shù)上的革新,更是對人類社會未來發(fā)展路徑的一次深刻啟示。背景o人工智能AGI,我們需要什么??GPT4做為新一代的GPT模型?增加了對視覺模態(tài)輸入的支持,這意味著它能夠理解圖像并進(jìn)行相應(yīng)的自然語言生成?增加了多模態(tài)能力的GPT4也帶來了應(yīng)用層面的更多可能?GPT-4V?增強(qiáng)的視覺能力?分析和理解圖像內(nèi)容,提供描述、識別對象,甚至解釋場景?根據(jù)圖像生成創(chuàng)意文本格式?翻譯圖像中的文本,強(qiáng)大的OCR能力?GPT-4O?具備原生多模態(tài)能力?支持文本、音頻、圖像任意組合?性能提升,更快的響應(yīng)速度背景o視覺能力是通用人工智能AGI需必備的基礎(chǔ)能力——人類智能本身高度依賴于視覺感知理解世界情境感知理解世界學(xué)習(xí)能力識別物體學(xué)習(xí)能力交互能力預(yù)測運(yùn)動視覺-語言跨模態(tài)學(xué)習(xí)?Vision-languagecrossmodallearning,亦稱為VLP(Vision-LanguagePretrain)、VLM(Vision-LanguageModel代表性的工作是20年OpenAI的CLIP,開啟和引領(lǐng)了CV多模態(tài)研究的大模型時代視覺-語言跨模態(tài)學(xué)習(xí)0.4BRadford,Alec,JongWookKim,ChrisHalacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguage視覺-語言跨模態(tài)學(xué)習(xí)中文圖文跨模態(tài)模型R2D2圖文跨模態(tài)學(xué)習(xí)帶來的基于內(nèi)容的圖文互檢能力對于互聯(lián)網(wǎng)搜索來說具有非常重要的落地價值,來自于360搜索的實際業(yè)務(wù)需求非常強(qiáng)烈。360搜索:使用跨模態(tài)模型之前的搜索結(jié)果360搜索:使用跨模態(tài)模型之前的搜索結(jié)果360搜索:使用跨模態(tài)模型之后的搜索結(jié)果視覺-語言跨模態(tài)學(xué)習(xí)中文圖文跨模態(tài)模型R2D2?2300萬訓(xùn)練數(shù)據(jù),在中文圖文檢索任務(wù)上達(dá)到?雙塔base+單塔head的混合模式?專門針對數(shù)據(jù)噪聲設(shè)計的momentum-updatedencoder和maskedinput+softlabel雙蒸餾視覺-語言跨模態(tài)學(xué)習(xí)?伴隨著算法和模型,我們一同開源了對應(yīng)的圖文跨模態(tài)?伴隨著算法和模型,我們一同開源了對應(yīng)的圖文跨模態(tài)數(shù)據(jù)集Zero,包含2.5億中文圖文對數(shù)據(jù)?基于用戶點擊CTR篩選,數(shù)據(jù)質(zhì)量更高2.5億1億2300萬3000萬22圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐圖文多模態(tài)大模型LMM的研發(fā)回顧?LMM=LargeMultimodalModel,之前亦稱為MLLM(MultimodalLargeLanguageModel目前也有小部分工作為了強(qiáng)調(diào)視覺能力將其稱為LVM(LargeVisionModel)。LMM是在單文本模態(tài)的語言模型LLM基礎(chǔ)上發(fā)展起來的研究方向,旨在解決純文本語言模型LLM只能理解文本輸入的先天缺陷,賦予大模型對多模態(tài)信息混合輸入的理解和處理能力,在此基礎(chǔ)上可以再進(jìn)一步實現(xiàn)多模態(tài)信息的混合輸出能力?相關(guān)的研究路線主要分為兩條:一條是原生多模態(tài)路線,模型設(shè)計從一開始就專門針對多模態(tài)數(shù)據(jù)進(jìn)行適配設(shè)計,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一條是單模態(tài)專家模型縫合路線,通過橋接層將預(yù)訓(xùn)練的視覺專家模型與預(yù)訓(xùn)練的語言模型鏈接起來,代表性的工作有23年1月Saleforce的BLIP-2,以及近期GPT-4O5-14-2024的IdeficsGPT-4O5-14-2024Qwen-VL8-15-2023Qwen-VL8-15-2023開源InternVL26-25-2024開源LLaVA4-17-2023開源Gemini12-6-2023Idefics24-15-2024開源圖文多模態(tài)大模型路線選擇路線選擇 ?原生多模態(tài)路線的理論上限更高,但對應(yīng)的是訓(xùn)練成本遠(yuǎn)高于縫合路線;?縫合路線因為可以復(fù)用各個單模態(tài)領(lǐng)域的已有成果,因此具有很經(jīng)濟(jì)的訓(xùn)練成本優(yōu)勢。?少數(shù)的巨頭機(jī)構(gòu)采用的是原生多模態(tài)路線,其它絕大多數(shù)企業(yè)和學(xué)界研究機(jī)構(gòu)采用的是縫合路線圖文多模態(tài)大模型第一代LMM?多模態(tài)LMM的研發(fā)從22年底到現(xiàn)在,從整個業(yè)界的角度來觀察,有著非常明顯的代際更替?第一代LMM(22年11~23年6月)的代表性工作主要包括BLIP-2,LLaVA,miniGPT4以及國內(nèi)智譜的VisualGLM、阿里的mPLUG-owl、自動化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月開源的SEEChat(360VL的前身)也屬于第一代LMM。?這一代LMM的能力主要為針對圖像內(nèi)容的對話和問答,支持的圖像分辨率非常低(224×224研發(fā)的重心主要聚焦在模態(tài)對齊的原型驗證上證上圖文多模態(tài)大模型第二代LMM?第二代LMM的研發(fā),時間上大致為23年6~11月。?從第二代LMM的研發(fā)開始,整個業(yè)界開始呈現(xiàn)出研發(fā)投入逐漸增強(qiáng),研發(fā)競爭急劇擴(kuò)大的情況。?第二代LMM從研發(fā)的角度主要是要為LMM增加目標(biāo)定位的能力,相比粗粒度的圖像內(nèi)容問答,增加目標(biāo)定位能力是多模態(tài)LMM能夠在Agent、機(jī)器人、自動駕駛、安防巡檢等場景中落地實用的必要前提圖文多模態(tài)大模型第三代LMM?從23年11月~至今,業(yè)界已經(jīng)轉(zhuǎn)入第三代LMM的研發(fā)。?第二代LMM的研發(fā)中暴露出以下幾個關(guān)鍵問題,需要在第三代LMM的研發(fā)中進(jìn)一步解決I.高分辨率輸入的支持?2代LMM的分辨率基本都處在336~448之間II.圖文模態(tài)間的競爭?幾乎所有的工作都回避了語言模型能力下降的問題III.多模態(tài)的ScalingLaw?縫合路線的天花板是否已經(jīng)出現(xiàn)圖文多模態(tài)大模型高分辨率輸入的支持?第一代LMM所能處理的圖像分辨率固定為224(對應(yīng)圖像token數(shù)32~256第二代LMM的典型分辨率是336~448。圖文多模態(tài)大模型?多任務(wù)訓(xùn)練一直以來存在任務(wù)間競爭的問題?在多模態(tài)LMM的研發(fā)上,多任務(wù)的競爭問題更為顯著,特別是視覺模態(tài)vs文本模態(tài)的競爭融合路線:在多模態(tài)訓(xùn)練時加入文本數(shù)據(jù),來緩解LLM的遺忘問題OptionI:保持LLM原有能力,型融合設(shè)計和訓(xùn)練的難度更高。代表性的工作是做為LMM先驅(qū)的Flamingo。模型結(jié)構(gòu)上專門設(shè)計了多模態(tài)融合的縫合層,內(nèi)嵌的LLM訓(xùn)練時固定不受影響。360SEEChat和智譜OptionI:保持LLM原有能力,型融合設(shè)計和訓(xùn)練的難度更高。代表性的工作是做為LMM先驅(qū)的Flamingo。模型結(jié)構(gòu)上專門設(shè)計了多模態(tài)融合的縫合層,內(nèi)嵌的LLM訓(xùn)練時固定不受影響。360SEEChat和智譜圖文多模態(tài)大模型?縫合路線目前最大的障礙:不具有很好的data-performancescalingup能力?當(dāng)前縫合路線的模型結(jié)構(gòu)基本已經(jīng)收斂為imageencoder+projector+LLM的結(jié)構(gòu),其中imageencoder負(fù)責(zé)圖像編碼,LLM負(fù)責(zé)對話邏輯,projector作為縫合層將視覺編碼器和語言模型進(jìn)行橋接縫合?但是當(dāng)前以LLAVA為代表的淺層縫合模型,通常在百萬訓(xùn)練量級后就已經(jīng)飽和,將訓(xùn)練量提高到千萬甚至幾億的量級并不能帶來LMM模型能力的明顯提升?背后的根本原因,要追溯到縫合路線下LMM中內(nèi)嵌的語言模型能力是否需要保持上?兩種解決方案:?方案一:在imageencoder+projector上做文章,將海量數(shù)據(jù)的信息在預(yù)訓(xùn)練階段訓(xùn)練到視覺編碼器和縫合層中,語言模型參數(shù)僅在最后的指令微調(diào)階段參與訓(xùn)練。代表性的工作包括國內(nèi)零一萬物的Yi-VL,書生浦語InternLM-XComposer-VL,韓國KaKaoBrain的Honeybee等?方案二:在多模態(tài)訓(xùn)練過程中也同步加入相當(dāng)比例的純文本訓(xùn)練數(shù)據(jù)同時進(jìn)行訓(xùn)練,代表性的工作包括Apple的MM1和國內(nèi)幻方的圖文多模態(tài)大模型圖文多模態(tài)大模型?模型結(jié)構(gòu):采用BLIP2的ViT和Q-Former作為視覺編碼器,采用Vicuna作為文本解碼器,通過一個線性映射層將視覺特征映射到文本表示空間?模型訓(xùn)練:凍結(jié)視覺編碼器和文本解碼器,只訓(xùn)練線性映射層?Pre-traing:5M圖文數(shù)據(jù)對齊?SFT:3.5K人工矯正數(shù)據(jù)圖文多模態(tài)大模型?模型結(jié)構(gòu):采用CLIPVIT-L/14作為視覺編碼器,采用Vicuna作為文本解碼器,通過一層MLP做線性映射?模型訓(xùn)練:?Pre-traing:從CC3M中通過限制caption中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù),凍住視覺編碼器和文本解碼器,只訓(xùn)練線性映射層?SFT:映射矩陣與語言模型均更新圖文多模態(tài)大模型LLaVA-1.5?數(shù)據(jù)?增加更多微調(diào)數(shù)據(jù)?Region-levelVQA?中英雙語ShareGPT?對特定問題設(shè)計prompt?模型?增加VLconnector容量?提升模型分辨率?更大杯LLM圖文多模態(tài)大模型?混合分辨率支持?自適應(yīng)選擇最佳縮放尺寸2x2,2x3等?模型?性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B?數(shù)據(jù)?高質(zhì)量GPT-4V數(shù)據(jù)(LAION-GPT-V和ShareGPT-4V)?用戶反饋真實數(shù)據(jù)?增強(qiáng)OCR能力(DocVQA、SynDog-EN等)?加強(qiáng)圖表理解能力(ChartQA,DVQA,和AI2D)圖文多模態(tài)大模型DeekSeek-VL?視覺編碼器?384分辨率SigLIP與1024分辨率SAM的結(jié)合,全局+細(xì)節(jié)?語言能力退化??聯(lián)合視覺語言預(yù)訓(xùn)練中加入大量純文本數(shù)據(jù)圖文多模態(tài)大模型??模型?SigLIP+PerceiverResampler+Mistral-7B?Resampler降低圖像token,提升效率?保持aspectratio,4cropsandoriginal數(shù)據(jù)?interleaved數(shù)據(jù)?圖文對(高質(zhì)量的人工標(biāo)注PMD+高噪聲的laion)?Cauldron微調(diào)數(shù)據(jù)圖文多模態(tài)大模型InternVL2?大容量ViT:InternViT-6B?性能更強(qiáng)的LLM:InternLM2/Llama3?動態(tài)高分辨率策略?視頻等更多數(shù)據(jù)的引入22圖文多模態(tài)大模型3360多模態(tài)大模型探索44業(yè)務(wù)落地實踐360多模態(tài)大模型探索基于單模態(tài)專家縫合方案的多模態(tài)模型SEEChat?SEEChat項目(/360CVGroup/SEEChat)重點是將視覺能力與已有的LLM模型相融合,打造側(cè)重視覺能力的多模態(tài)語言模型MLLM。在多模態(tài)能力的實現(xiàn)路線上,我們選擇了能夠充分復(fù)用不同領(lǐng)域已有成果的單模態(tài)專家模型縫合路線(Single-modalExpertsEfficientintegration)?主打能力:oo嚴(yán)格超集:SEEChatMLLM的視覺能力做為內(nèi)嵌語言模型的嚴(yán)格超集存在,強(qiáng)調(diào)不影響語言模型原有的能力oOVD:在對圖像內(nèi)容的整體理解之外,能夠同步給出涉及目標(biāo)在圖像中出現(xiàn)的位置360多模態(tài)大模型探索oSEEChat?淺層融合模型,主打Dialogue+Captioning+OVD能力模型StageIImage-TextAlignmentHuman-TextAlignmentrStageIIIDomainAlignment360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023這張照片顯示了一名男子站在一輛出租車前,出租車停在路邊,窗外是一棟高樓和街道。背景是一棟高樓和街道,樹木和路燈照亮了城市。圖像中的人穿著黑色襯衫和白色褲子,戴著黑色帽子。圖像中的樹木這張照片是在夜晚拍攝的,所以背景中的高樓和街道被樹木和路燈照亮,出租車停在路邊。這是一張城市夜景的照片,可以讓人感受到城市360多模態(tài)大模型探索oStageII初版多輪對話效果5-18-2023這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種一棟建筑,屋頂上有一個遮陽傘。圖片中的人穿著衣服,看起來很高這張圖片的日期和時間未知。從圖片的背景來看,可可以看出人們穿著夏季服裝,比如短袖襯衫和短褲。在這種情況下,SEEChat圖片中的人似乎正在看報紙,但我沒有注意到他們是否在閱讀。360多模態(tài)大模型探索?實驗探索?數(shù)據(jù)??數(shù)據(jù)?開源數(shù)據(jù)?開源數(shù)據(jù)?Lai?Laion,Zero等中英文原生數(shù)據(jù)?Recaption數(shù)據(jù)?GeneralVQA,OCR,Counting,Detection等?Vicuna1.5??Visionencoder?CLIP-Vit?高分辨率策略?滑動窗口?高分辨率visionencoder?Connector360多模態(tài)大模型探索?結(jié)合實驗探索和內(nèi)部數(shù)據(jù)積累,SeeChat升級為360VL?2024年5月發(fā)布開源版360VL,在MMMU開源模型中排名第一https://github/360CVGroup/360VLhttps://huggingface.co/qihoo360/360VL-8Bhtt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論