多模態(tài)大模型:開放世界理解_第1頁
多模態(tài)大模型:開放世界理解_第2頁
多模態(tài)大模型:開放世界理解_第3頁
多模態(tài)大模型:開放世界理解_第4頁
多模態(tài)大模型:開放世界理解_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

多模態(tài)大模型:開放世界理解背景圖文多模態(tài)大模型360多模態(tài)大模型探索業(yè)務落地實踐1234什么是大模型大參數(shù)大算力大數(shù)據(jù)什么是大模型大數(shù)據(jù)大參數(shù)大算力背景人工智能AGI,我們需要什么?ChatGPT的發(fā)布標志著自然語言處理技術邁入了一個全新的階段。自2022年底亮相以來,它憑借其驚人的語言生成能力,迅速成為AI領域的焦點。ChatGPT能夠進行連貫、深度的對話,甚至創(chuàng)作詩歌、撰寫文章,展現(xiàn)出了前所未有的創(chuàng)造力和理解力。這一突破不僅激發(fā)了公眾對于AI技術的興趣,還加速了科技界對通用人工智能(AGI)的研究步伐。在教育、寫作、娛樂等多個領域,ChatGPT的應用潛力正在被不斷挖掘。教育工作者利用它輔助教學,作家借助它激發(fā)靈感,企業(yè)則將其融入客戶服務,提高了效率與體驗。同時,ChatGPT也引發(fā)了關于AI倫理、隱私保護及就業(yè)市場變革的廣泛討論,促使社會各界思考如何在享受AI紅利的同時,建立相應的監(jiān)管框架,確保技術的健康發(fā)展??傊?,ChatGPT的出現(xiàn)不僅是技術上的革新,更是對人類社會未來發(fā)展路徑的一次深刻啟示。背景人工智能AGI,我們需要什么?GPT4做為新一代的GPT模型增加了對視覺模態(tài)輸入的支持,這意味著它能夠理解圖像并進行相應的自然語言生成增加了多模態(tài)能力的GPT4也帶來了應用層面的更多可能GPT-4V增強的視覺能力分析和理解圖像內(nèi)容,提供描述、識別對象,甚至解釋場景根據(jù)圖像生成創(chuàng)意文本格式翻譯圖像中的文本,強大的OCR能力GPT-4O具備原生多模態(tài)能力支持文本、音頻、圖像任意組合性能提升,更快的響應速度背景視覺能力是通用人工智能AGI需必備的基礎能力——人類智能本身高度依賴于視覺感知理解世界學習能力情境感知識別物體交互能力預測運動……視覺-語言跨模態(tài)學習Vision-language

cross

modal

learning,亦稱為VLP(Vision-Language

Pretrain)、VLM(Vision-LanguageModel),代表性的工作是20年OpenAI的CLIP,開啟和引領了CV多模態(tài)研究的大模型時代Li,Yingming,MingYang,andZhongfeiZhang."Multi-viewrepresentationlearning:Asurveyfromshallowmethodstodeepmethods."arXivpreprintarXiv:1610.012061

(2016).視覺-語言跨模態(tài)學習Radford,Alec,JongWookKim,ChrisHallacy,AdityaRamesh,GabrielGoh,SandhiniAgarwal,GirishSastryetal."Learningtransferablevisualmodelsfromnaturallanguage

supervision."InInternationalconferenceonmachinelearning,pp.8748-8763.PMLR,2021.1.8B5B5B0.4BCLIP'20ALIGN'21BASIC'22DFN'23Data

Size視覺-語言跨模態(tài)學習中文圖文跨模態(tài)模型

R2D2圖文跨模態(tài)學習帶來的基于內(nèi)容的圖文互檢能力對于互聯(lián)網(wǎng)搜索來說具有非常重要的落地價值,來自于360搜索的實際業(yè)務需求非常強烈。360搜索:使用跨模態(tài)模型之前的搜索結(jié)果360搜索:使用跨模態(tài)模型之后的搜索結(jié)果視覺-語言跨模態(tài)學習中文圖文跨模態(tài)模型

R2D22300萬訓練數(shù)據(jù),在中文圖文檢索任務上達到SOTA雙塔base

+單塔head的混合模式專門針對數(shù)據(jù)噪聲設計的momentum-updated

encoder和masked

input

+

softlabel雙蒸餾[1]XieChunyu,etal.CCMB:ALarge-scaleChineseCross-modalBenchmark[C]//Proceedingsofthe31stACMInternationalConferenceonMultimedia.2023:

4219-4227.視覺-語言跨模態(tài)學習中文圖文跨模態(tài)模型

R2D2伴隨著算法和模型,我們一同開源了對應的圖文跨模態(tài)數(shù)據(jù)集Zero,包含2.5億中文圖文對數(shù)據(jù)基于用戶點擊CTR篩選,數(shù)據(jù)質(zhì)量更高2300萬3000萬1億2.5億Zero

V1WenLan'21WuKong'22Zero

V2Data

Size背景圖文多模態(tài)大模型360多模態(tài)大模型探索業(yè)務落地實踐1234圖文多模態(tài)大模型LMM的研發(fā)回顧LMM

=

Large

Multimodal

Model,之前亦稱為MLLM(Multimodal

Large

Language

Model),目前也有小部分工作為了強調(diào)視覺能力將其稱為LVM

(Large

Vision

Model)。LMM是在單文本模態(tài)的語言模型LLM基礎上發(fā)展起來的研究方向,旨在解決純文本語言模型LLM只能理解文本輸入的先天缺陷,賦予大模型對多模態(tài)信息混合輸入的理解和處理能力,在此基礎上可以再進一步實現(xiàn)多模態(tài)信息的混合輸出能力相關的研究路線主要分為兩條:一條是原生多模態(tài)路線,模型設計從一開始就專門針對多模態(tài)數(shù)據(jù)進行適配設計,代表性的工作有MSRA的KOSMOS、Google的Gemeni、OpenAI的GPT-4O;另一條是單模態(tài)專家模型縫合路線,通過橋接層將預訓練的視覺專家模型與預訓練的語言模型鏈接起來,代表性的工作有23年1月Saleforce的BLIP-2,以及近期的Idefics2和InternVL2等工作Gemini12-6-2023閉源GPT-4O5-14-2024閉源Qwen-VL8-15-2023開源LLaVA4-17-2023開源Idefics24-15-2024開源InternVL26-25-2024開源圖文多模態(tài)大模型路線選擇原生多模態(tài)路線的理論上限更高,但對應的是訓練成本遠高于縫合路線;縫合路線因為可以復用各個單模態(tài)領域的已有成果,因此具有很經(jīng)濟的訓練成本優(yōu)勢。少數(shù)的巨頭機構(gòu)采用的是原生多模態(tài)路線,其它絕大多數(shù)企業(yè)和學界研究機構(gòu)采用的是縫合路線SimVLMCoCaCogVLMPALIIDEFICSFlamingoPALM-E卡*月2905801374064781305198455801305198450500010000150002000025000SimVLM 290CoCaCogVLM 137PALI 406IDEFICS 478FlamingoPALM-E圖文多模態(tài)大模型第一代LMM多模態(tài)LMM的研發(fā)從22年底到現(xiàn)在,從整個業(yè)界的角度來觀察,有著非常明顯的代際更替第一代LMM(22年11~23年6月)的代表性工作主要包括B

L

I

P

-

2

,LLaVA,miniGPT4以及國內(nèi)智譜的VisualGLM、阿里的mPLUG-owl、自動化所的X-LLM、IDEA的Ziya-Visual等。360人工智能研究院在23年5月開源的SEEChat

(360VL的前身)也屬于第一代LMM。這一代LMM的能力主要為針對圖像內(nèi)容的對話和問答,支持的圖像分辨率非常低(224×224),研發(fā)的重心主要聚焦在模態(tài)對齊的原型驗證上圖文多模態(tài)大模型第二代LMM第二代LMM的研發(fā),時間上大致為23年6~11月。從第二代LMM的研發(fā)開始,整個業(yè)界開始呈現(xiàn)出研發(fā)投入逐漸增強,研發(fā)競爭急劇擴大的情況。第二代LMM從研發(fā)的角度主要是要為LMM增加目標定位的能力,相比粗粒度的圖像內(nèi)容問答,增加目標定位能力是多模態(tài)L

M

M

能夠在Agent、機器人、自動駕駛、安防巡檢等場景中落地實用的必要前提圖文多模態(tài)大模型第三代LMM從23年11月~至今,業(yè)界已經(jīng)轉(zhuǎn)入第三代LMM的研發(fā)。第二代LMM的研發(fā)中暴露出以下幾個關鍵問題,需要在第三代LMM的研發(fā)中進一步解決III.高分辨率輸入的支持2代LMM的分辨率基本都處在336~448之間圖文模態(tài)間的競爭幾乎所有的工作都回避了語言模型能力下降的問題多模態(tài)的ScalingLaw縫合路線的天花板是否已經(jīng)出現(xiàn)圖文多模態(tài)大模型高分辨率輸入的支持第一代LMM所能處理的圖像分辨率固定為224(對應圖像token數(shù)32~256),第二代LMM的典型分辨率是336~448。主要制約因素是訓練的成本和語言模型的窗口大小:一方面圖像分辨率越高,圖像編碼后的image

token數(shù)越多,對應的訓練成本越高;另一方面23年語言模型的輸入窗口大小普遍在1K左右,過長的圖像編碼token長度會壓縮文本輸入的空間,導致問答能力的下降。圖像分辨率支持不夠高帶來的問題,一方面是LMM在圖像對話/問答中對細節(jié)的理解能力受限,另一方面更為重要的是作為通用模型的LMM很難在下游任務上實現(xiàn)對傳統(tǒng)專業(yè)模型的超越,這也是目前LMM在實際落地應用中的最顯著障礙目前第三代LMM模型通過將輸入圖像切塊的方式已基本解決了高分辨率圖像支持的技術障礙,同期語言模型的輸入窗口也普遍從1K提升到4K、8K甚至幾十萬字,24年2月后開始陸續(xù)有第三代LMM的工作實現(xiàn)了高分辨率以及混合分辨率的支持,代表性的工作有LLaVA1.6,阿里的QwenVL-plus/max,金山的Monkey,曠視的Vary等工作。圖文多模態(tài)大模型Option

I:

保持LLM原有能力,模型融合設計和訓練的難度更高。代表性的工作是做為LMM先驅(qū)的Flamingo。模型結(jié)構(gòu)上專門設計了多模態(tài)融合的縫合層,內(nèi)嵌的LLM訓練時固定不受影響。360

SEEChat和智譜的CogVLM采取了類似方案。優(yōu)點是嚴格能力超集,缺點是訓練難度更高。OptionII:

當前大多數(shù)工作的選擇則是在LMM上放棄文本模態(tài)的能力,只強調(diào)視覺模態(tài)的能力。為了盡可能提升LMM在視覺任務上的表現(xiàn),將LLM打開參與視覺任務訓練。這么做的優(yōu)點是可以降低LMM在模型設計和訓練上的難度,容易刷高LMM在視覺任務上的指標,但LLM會發(fā)生顯著的遺忘效應。圖文模態(tài)間的競爭多任務訓練一直以來存在任務間競爭的問題在多模態(tài)LMM的研發(fā)上,多任務的競爭問題更為顯著,特別是視覺模態(tài)vs文本模態(tài)的競爭融合路線:在多模態(tài)訓練時加入文本數(shù)據(jù),來緩解LLM的遺忘問題圖文多模態(tài)大模型多模態(tài)Scaling

Law縫合路線目前最大的障礙:不具有很好的data-performancescaling

up能力當前縫合路線的模型結(jié)構(gòu)基本已經(jīng)收斂為image

encoder

+

projector

+

LLM的結(jié)構(gòu),其中image

encoder負責圖像編碼,LLM負責對話邏輯,projector作為縫合層將視覺編碼器和語言模型進行橋接縫合但是當前以LLAVA為代表的淺層縫合模型,通常在百萬訓練量級后就已經(jīng)飽和,將訓練量提高到千萬甚至幾億的量級并不能帶來LMM模型能力的明顯提升背后的根本原因,要追溯到縫合路線下LMM中內(nèi)嵌的語言模型能力是否需要保持上兩種解決方案:方案一:在image

encoder+

projector上做文章,將海量數(shù)據(jù)的信息在預訓練階段訓練到視覺編碼器和縫合層中,語言模型參數(shù)僅在最后的指令微調(diào)階段參與訓練。代表性的工作包括國內(nèi)零一萬物的Yi-VL,書生浦語InternLM-XComposer-VL,韓國KaKaoBrain的Honeybee等方案二:在多模態(tài)訓練過程中也同步加入相當比例的純文本訓練數(shù)據(jù)同時進行訓練,代表性的工作包括Apple的MM1和國內(nèi)幻方的Deepseek-VL等工作圖文多模態(tài)大模型Gemini12-6-2023GoogleGPT-4O5-14-2024OpenAIIdefics24-15-2024Hugging

FaceDeepSeek-VL3-18-2024幻方360VL5-16-2024360研究院InternVL26-25-2024上海AI

LAB第一代LMM第二代LMM第三代LMM圖文多模態(tài)大模型MiniGPT4模型結(jié)構(gòu):采用

BLIP2

ViT

和Q-Former

作為視覺編碼器,采用Vicuna

作為文本解碼器,通過一個線性映射層將視覺特征映射到文本表示空間模型訓練:凍結(jié)視覺編碼器和文本解碼器,只訓練線性映射層Pre-traing:5M圖文數(shù)據(jù)對齊SFT:3.5K人工矯正數(shù)據(jù)圖文多模態(tài)大模型LLaVA模型結(jié)構(gòu):采用

CLIP

VIT-L/14作為視覺編碼器,采用

Vicuna

作為文本解碼器,通過一層MLP做線性映射模型訓練:Pre-traing:從

CC3M

中通過限制

caption

中名詞詞組的最小頻率過濾出595k圖文數(shù)據(jù),凍住視覺編碼器和文本解碼器,只訓練線性映射層SFT:映射矩陣與語言模型均更新圖文多模態(tài)大模型LLaVA-1.5數(shù)據(jù)增加更多微調(diào)數(shù)據(jù)VQARegion-level

VQA中英雙語ShareGPT對特定問題設計prompt模型增加VL

connector容量提升模型分辨率更大杯LLM圖文多模態(tài)大模型LLaVA-Next混合分辨率支持自適應選擇最佳縮放尺寸1x1,1x2,1x3,1x4,1x5,

1x6,2x2,2x3等模型性能更好的LLM(Mistral-7B、Nous-Hermes-2-Yi-34B數(shù)據(jù)高質(zhì)量GPT-4V數(shù)據(jù)(LAION-GPT-V

和ShareGPT-4V)用戶反饋真實數(shù)據(jù)增強OCR能力(DocVQA、SynDog-EN等)加強圖表理解能力(ChartQA,

DVQA,

AI2D)圖文多模態(tài)大模型DeekSeek-VL視覺編碼器384分辨率SigLIP與1024分辨率SAM的結(jié)合,全局+細節(jié)語言能力退化?聯(lián)合視覺語言預訓練中加入大量純文本數(shù)據(jù)圖文多模態(tài)大模型Idefics2模型SigLIP+Perceiver

Resampler+Mistral-7BResampler降低圖像token,提升效率保持aspectratio,4

cropsandoriginal數(shù)據(jù)interleaved數(shù)據(jù)圖文對(高質(zhì)量的人工標注PMD+高噪聲的laion)PDF文件(OCR-IDL,PDFA,Rendered

Text)Cauldron微調(diào)數(shù)據(jù)圖文多模態(tài)大模型InternVL2大容量ViT:InternViT-6B性能更強的LLM:InternLM2/Llama3動態(tài)高分辨率策略視頻等更多數(shù)據(jù)的引入背景圖文多模態(tài)大模型360多模態(tài)大模型探索業(yè)務落地實踐1234360多模態(tài)大模型探索基于單模態(tài)專家縫合方案的多模態(tài)模型SEEChatSEEChat項目(/360CVGroup/SEEChat)重點是將視覺能力與已有的LLM模型相融合,打造側(cè)重視覺能力的多模態(tài)語言模型MLLM。在多模態(tài)能力的實現(xiàn)路線上,我們選擇了能夠充分復用不同領域已有成果的單模態(tài)專家模型縫合路線(Single-modal

Experts

Efficient

integration)主打能力:嚴格超集:SEEChat

MLLM的視覺能力做為內(nèi)嵌語言模型的嚴格超集存在,強調(diào)不影響語言模型原有的能力OVD:在對圖像內(nèi)容的整體理解之外,能夠同步給出涉及目標在圖像中出現(xiàn)的位置360多模態(tài)大模型探索模型BLIP-2ViT+Qformer

+projectionlayer+chatGLM6B+

LoRAStage

IImage-TextAlignment訓練數(shù)據(jù)23M中文圖文對[1]

+

BLIP-CapFilt方法重新生成caption,只訓練projection

layerStage

IIHuman-TextAlignmentV1.0

通用領域模型:Instruction-followingdata(LLAVA158k+miniGPT43.5k)finetuneprojection

layer+chatGLM+

LoRAStage

IIIDomainAlignmentV1.1

領域適配模型:Instruction-followingdata,按照LLAVA方式半自動化標注一批領域數(shù)據(jù)SEEChat淺層融合模型,主打Dialogue

+

Captioning

+OVD能力[1]XieC,CaiH,LiJ,etal.CCMB:ALarge-scaleChineseCross-modalBenchmark[C]//Proceedingsofthe31stACMInternationalConferenceonMultimedia.2023:

4219-4227.360多模態(tài)大模型探索Stage

II初版多輪對話效果

5-18-2023360多模態(tài)大模型探索Stage

II初版多輪對話效果

5-18-2023User 詳細描述這張圖片。SEEChat這張照片顯示了一名男子站在一輛出租車前,出租車停在路邊,窗外是一棟高樓和街道。背景是一棟高樓和街道,樹木和路燈照亮了城市。圖像中的人穿著黑色襯衫和白色褲子,戴著黑色帽子。圖像中的樹木和路燈照亮了城市,背景中的高樓和街道。User這是白天還是晚上?SEEChat這張照片是在夜晚拍攝的,所以背景中的高樓和街道被樹木和路燈照亮,出租車停在路邊。這是一張城市夜景的照片,可以讓人感受到城市的喧囂和繁忙。User 出租車是什么顏色的?SEEChat 出租車是黃色的。User 站在前面的是男人還是女人?SEEChat 站在前面的是男人。User 圖片里路燈是什么顏色的?SEEChat 圖像中的路燈是黃色的。360多模態(tài)大模型探索Stage

II初版多輪對話效果

5-18-2023User 詳細描述這張圖片。SEEChat這張圖片展示了一個街頭市場,人們站在一個貨架前,手里拿著各種商品。貨架上堆滿了各種商品,包括蠟燭、糖果、咖啡和茶。背景是一棟建筑,屋頂上有一個遮陽傘。圖片中的人穿著衣服,看起來很高興,手里拿著商品。User天氣怎么樣?SEEChat這張圖片的日期和時間未知。從圖片的背景來看,可能是一個陽光明媚的天氣,遮陽傘的陰影覆蓋在建筑上。User 有幾個人?SEEChat 根據(jù)圖片中人的數(shù)量,很難確定一共有幾個人。User 房子是什么顏色的?SEEChat 房子的顏色是白色的,可能是奶油色或淺黃色。User 什么季節(jié)?SEEChat 這張圖片很難準確地推斷是哪個季節(jié)。User 根據(jù)人們穿的衣服推測是哪個季節(jié)。SEEChat可以看出人們穿著夏季服裝,比如短袖襯衫和短褲。在這種情況下,可能正處于夏季或炎熱季節(jié)。User有人在看報紙嗎?SEEChat圖片中的人似乎正在看報紙,但我沒有注意到他們是否在閱讀。360多模態(tài)大模型探索實驗探索模型LLMsQWen2Llama3Vicuna1.5ChatglmVisionencoderSiglipCLIP-VitDFN高分辨率策略滑動窗口高分辨率vision

encoderConnectorMLPPerceiver

resamplerCNN數(shù)據(jù)開源數(shù)據(jù)Laion,Zero等中英文原生數(shù)據(jù)Recaption數(shù)據(jù)GeneralVQA,OCR,Counting,Detection等內(nèi)部數(shù)據(jù)360多模態(tài)大模型探索結(jié)合實驗探索和內(nèi)部數(shù)據(jù)積累,SeeChat升級為360VL2024年5月發(fā)布開源版360VL,在MMMU開源模型中排名第一/360CVGroup/360VLhttps://huggingface.co/qihoo360/360VL-8B

https://huggingface.co/qihoo360/3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論