




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
計(jì)算機(jī)行業(yè)市場分析
一、多模態(tài)預(yù)訓(xùn)練概述
多模態(tài)表示包含兩個(gè)或兩個(gè)以上事物表現(xiàn)形式
模態(tài)是事物的一種表現(xiàn)形式,多模態(tài)通常包含兩個(gè)或者兩個(gè)以上的模
態(tài)形式,是從多個(gè)視角出發(fā)對(duì)事物進(jìn)行描述。生活中常見多模態(tài)表示,
例如傳感器的數(shù)據(jù)不僅僅包含文字、圖像,還可以包括與之匹配的溫
度、深度信息等。使用多模態(tài)數(shù)據(jù)能夠使得事物呈現(xiàn)更加立體、全面,
多模態(tài)研究成為當(dāng)前研究重要方面,在情感分析、機(jī)器翻譯、自然語
言處理和生物醫(yī)藥前沿方向取得重大突破。
Transformer顛覆傳統(tǒng)模型,但限于單模態(tài)領(lǐng)域
2017年Transformer被提出,顛覆了傳統(tǒng)的深度學(xué)習(xí)模型,在機(jī)器
翻譯任務(wù)上實(shí)現(xiàn)了最好性能。Transformer在大規(guī)模語料庫上進(jìn)行自
監(jiān)督預(yù)訓(xùn)練,然后在下游任務(wù)進(jìn)行微調(diào)受到人們的關(guān)注,許多預(yù)訓(xùn)練
大模型都是遵守這一范式提出,例如BERT、GPT等。雖然基于
Transformer的大模型都取得了很好的效果,但還是限于單一模態(tài)(文
本)上,無法將其self-attention中良好的泛化能力遷移到其他模態(tài)
(圖像、視頻等)中。Transformer不能遷移圖像領(lǐng)域的主要原因在
于輸入長度限制,以BERT為例,其輸入數(shù)據(jù)的長度只能支持512,
而對(duì)于像素為224*224的圖片來講,其輸入遠(yuǎn)大于512o
ViT的出現(xiàn)打通了CV和NLP之間壁壘,推動(dòng)多模態(tài)演進(jìn)
ransformer(Self-attention)在文本領(lǐng)域優(yōu)秀的表現(xiàn)吸引著計(jì)算機(jī)視
覺研究者,許多人開始將Transformer機(jī)制引入到計(jì)算機(jī)視覺。
Transformer限制在于其輸入數(shù)據(jù)大小,需要考慮輸入策略。谷歌借
鑒前人的思想,在強(qiáng)大的算力資源加持下,提出ViT模型。ViT模型
通過將圖片進(jìn)行切割成一個(gè)個(gè)patch(原文將一張圖片切割成16個(gè)
patch),對(duì)patch進(jìn)行處理,通過線性映射,變成Transformer可
接受的輸入,打通了CV和NLP之間的壁壘。
ViT中的Patchembedding在提取視覺特征方面效率優(yōu)勢明顯
ViT不僅能夠讓Transformer能夠?qū)D像進(jìn)行處理,而且ViT圖像特
征提取策略相較于之前的方式效率更高。
基于VisionTransformer,VideoTransformer模型出現(xiàn)
1、視頻領(lǐng)域基于ViT模型推出各類VideoTransformer。視頻是一個(gè)
典型的多模態(tài)形式,里面包含圖像、聲音、文字等。2、在ViT之前,
視頻方面的任務(wù),如視頻理解等,基本是通過3D卷積網(wǎng)絡(luò)展開的。
借鑒ViT思想,許多VideoTransformer被提出來,其中包括
TimeSformer,TimeSformer將每一幀視頻抽象成圖像,并與其前一
幀和后一幀相結(jié)合進(jìn)行運(yùn)算。與3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,
TimeSformer的訓(xùn)練速度大約是其4倍,而推斷所需的計(jì)算量不足其
十分之一。TimeSformer的高效讓在高空間分辨率(例如高達(dá)
560x560像素的幀)和長視頻(包括高達(dá)96幀)上訓(xùn)練模型成為可
能。
Transformer權(quán)重共享決定其適合多模態(tài)
Transformer存在權(quán)重共享,模型內(nèi)部的某些模塊可以共享權(quán)重參數(shù)。
Transformer的權(quán)重共享主要是由于其自注意力模塊和前向傳播網(wǎng)絡(luò)
都和輸入序列長度無關(guān)。這種權(quán)重共享理念同樣適合用于多模態(tài)模型
中。例如,圖文多模態(tài)中,圖像訓(xùn)練得到的權(quán)重參數(shù)可以用于訓(xùn)練文
本,結(jié)果依然有效,甚至不用fine-tune。許多多模態(tài)模型都借鑒了
Transformer里面的權(quán)重共享理念,典型的案例包括VLMo模型,該
模型首先在BEiT中使用大規(guī)模純圖像數(shù)據(jù)預(yù)訓(xùn)練視覺網(wǎng)絡(luò)和自注意
力模塊,然后凍結(jié)視覺網(wǎng)絡(luò)和自注意力模塊,通過對(duì)大量純文本數(shù)據(jù)
進(jìn)行建模訓(xùn)練語言網(wǎng)絡(luò),最后使用視覺?語言預(yù)訓(xùn)練整個(gè)模型。
BEiT模型的出現(xiàn)將生成式預(yù)訓(xùn)練從NLP遷移到CV上
生成式預(yù)訓(xùn)練是自監(jiān)督學(xué)習(xí)重要方法和訓(xùn)練目標(biāo),生成式預(yù)訓(xùn)練核心
是在沒有標(biāo)簽或者人工標(biāo)注的情況下,學(xué)習(xí)如何產(chǎn)生數(shù)據(jù)。生成式預(yù)
訓(xùn)練在自然語言處理中取得較大成功。BEiT模型的出現(xiàn),將生成式
預(yù)訓(xùn)練從NLP遷移到CV上,就是將BERT中的掩碼語言學(xué)習(xí)(MLM)
方法應(yīng)用到圖像領(lǐng)域。之后的MAE模型也是基于BEiT的工作展開
的。如果說ViT將Transformer遷移至1」CV中,那么BEiT就是將BERT
遷移到CV中。
多模態(tài)模型大一統(tǒng)成趨勢
2022年8月,微軟推出B日T-3模型,引領(lǐng)圖像、文本、多模態(tài)邁向
大一統(tǒng)。BEiT-3提出了掩碼圖像建模,將maskeddatamodeling引
入到圖像預(yù)訓(xùn)練任務(wù),將圖像和文本同等看待,以統(tǒng)一的方式對(duì)圖像、
文本、圖像-文本對(duì)進(jìn)行建模和學(xué)習(xí)。實(shí)際上,微軟在2021年11月
就推出了統(tǒng)一模型VLMO,使用混合模態(tài)專家(MOME)的方式來
進(jìn)行不同模態(tài)中進(jìn)行預(yù)訓(xùn)練,訓(xùn)練出不同的編碼器,用于不同的下游
任務(wù)。BEiT-3在其基礎(chǔ)上簡化模型并增大預(yù)訓(xùn)練數(shù)據(jù)量,最終在多
項(xiàng)下游任務(wù)上表現(xiàn)亮眼。2023年3月15日,微軟旗下OpenAI推出
多模態(tài)大模型GPT-4。
多模態(tài)廣泛存在于機(jī)器人、數(shù)字人、智能家居等領(lǐng)域
多模態(tài)在交互、感知、內(nèi)容分發(fā)等眾多領(lǐng)域都有較為重要的地位c多
模態(tài)交互在家庭與辦公場景下應(yīng)用廣泛,多模態(tài)交互可以進(jìn)一步提升
用戶與智能家居設(shè)備的交互體驗(yàn),提升了用戶完成相同意圖的效率與
成功率。多模態(tài)感知包括車場景和語音助手下的用戶意圖感知,例如,
在駕車場景中,隨著多屏主控等智能座艙技術(shù)進(jìn)步,各種智能終端可
以通過多模態(tài)交互實(shí)現(xiàn)意圖識(shí)別準(zhǔn)確率更高的用戶體驗(yàn)。多模態(tài)內(nèi)容
分發(fā)場景下,虛擬人結(jié)合動(dòng)作、表情、情感、文本等信息,輸出給用
戶。
二、多模態(tài)預(yù)訓(xùn)練關(guān)鍵要素
圖文需要Tokenization和Embedding
Token是模型輸入的基本單元,Embedding是Token映射后的向量,
用于計(jì)算。文字方面早期一般使用Word2Vec進(jìn)行Tokenization,包
括CBOW和skip-gram,雖然Word2Vec計(jì)算效率高,但是存在著
詞匯量不足的問題,因此子詞分詞法(subwordtokenization)被提出,
使用字節(jié)對(duì)編碼(BPE)將詞分割成更小的單元,該方法已被應(yīng)用于
BERT等眾多Transformer模型中。圖像的Tokenization要比文本更
加復(fù)雜,可以分為基于region,基于grid和基于patch三類方式。基
于grid的方式直接使用CNN進(jìn)行圖像網(wǎng)格信息提取,基于region
的方式由預(yù)訓(xùn)練的目標(biāo)檢測器進(jìn)行特征提取,基于patch的方式將圖
像切割成小塊,提取小塊上的線性投影。
多模態(tài)模型中要重視視覺特征
相較于文本特征而言,多模態(tài)模型中視覺特征更為重要。當(dāng)前多模態(tài)
預(yù)訓(xùn)練大模型中,不論CLIP、UNITER還是ViLT,在模型構(gòu)造方面,
視覺特征的embedding層數(shù)或者復(fù)雜度要超過文本特征,體現(xiàn)出視
覺特征更重要,多模態(tài)需要從視覺特征中學(xué)習(xí)到更多知識(shí)。根據(jù)
METER模型中的數(shù)據(jù)顯示,在視覺特征端進(jìn)行優(yōu)化對(duì)結(jié)果產(chǎn)生的影
響要遠(yuǎn)大于對(duì)文本端進(jìn)行的優(yōu)化。
如何設(shè)計(jì)學(xué)習(xí)目標(biāo)是多模態(tài)訓(xùn)練的重要一步
學(xué)習(xí)目標(biāo)是多模態(tài)預(yù)訓(xùn)練非常重要的一步,目前的多模態(tài)的預(yù)訓(xùn)練學(xué)
習(xí)任務(wù)主要包括圖文對(duì)比(ITC)、掩碼語言學(xué)習(xí)(MLM)、掩碼視
覺學(xué)習(xí)(MVM)、圖文匹配(ITM)等。ITC是通常構(gòu)造正負(fù)樣本對(duì),
通過對(duì)比學(xué)習(xí)方式,對(duì)齊圖像和文本;ITM可以看作是一個(gè)二分類任
務(wù),目標(biāo)是預(yù)測一對(duì)圖像和文本是否匹配;MLM是讓模型學(xué)習(xí)語言
和視覺內(nèi)容之間的隱式關(guān)系,目標(biāo)是從已知的語言和視覺內(nèi)容中重建
掩碼語言標(biāo)記;此外還包括掩碼物體分類(MOC)、掩碼物體回歸
(MOR)、行為預(yù)測(AP)、圖文生成(ITG)等。
不同的多模態(tài)預(yù)訓(xùn)練學(xué)習(xí)目標(biāo)可能帶來不一樣的結(jié)果
同時(shí)使用不同的預(yù)訓(xùn)練學(xué)習(xí)目標(biāo)可能會(huì)增強(qiáng)多模態(tài)模型的效果,例如
UNITER模型中,使用更多的學(xué)習(xí)目標(biāo)效果一般要更好,UNITER使
用MLM+ITM+MRC-kl+MRFR+WRA等多個(gè)學(xué)習(xí)目標(biāo)在在多個(gè)細(xì)分
場景下表現(xiàn)要更好。使用過多的學(xué)習(xí)目標(biāo)可能效果并不好。例如,
METER模型中,在MLM和ITM上再加入MIM學(xué)習(xí)模型,效果比使
用單個(gè)學(xué)習(xí)目標(biāo)要好,但不如僅僅使用兩個(gè)學(xué)習(xí)目標(biāo),這一方面可能
是學(xué)習(xí)目標(biāo)之間的沖突導(dǎo)致的,另外一方面可能是圖像中存在噪聲,
MIM重建圖像噪聲的監(jiān)督學(xué)習(xí)沒有任何意義導(dǎo)致的。
三、主要模型與下游場景
CLIP:使用對(duì)比學(xué)習(xí)實(shí)現(xiàn)圖文對(duì)齊
CLIP:2021年由OpenAI提出,利用文本信息監(jiān)督視覺任務(wù)自訓(xùn)練,
訓(xùn)練數(shù)據(jù)集為40億個(gè)“文本?圖像'對(duì),采用Transformer模型對(duì)圖像
的patch序列進(jìn)行建模,將不同模態(tài)的原始數(shù)據(jù)映射到統(tǒng)一或相似的
語義空間,實(shí)現(xiàn)不同模態(tài)信號(hào)間的相互理解,擁有尋找不同模態(tài)數(shù)據(jù)
間關(guān)系的能力。
CLIP在zero-shot上表現(xiàn)較好。與CV中常用的先預(yù)訓(xùn)練然后微調(diào)不
同,CLIP可以直接使用prompt進(jìn)行零樣本學(xué)習(xí)圖像分類,即不需要
任何訓(xùn)練數(shù)據(jù),就能在某個(gè)具體下游任務(wù)上實(shí)現(xiàn)分類。
DALLE2:基于CLIP實(shí)現(xiàn)更強(qiáng)大的圖文跨模態(tài)生成
DALL-E2:基于CLIP實(shí)現(xiàn)文本與圖像的聯(lián)系,基于D訐fusion從視
覺語義生成圖像。2022年4月由OpenAI提出,在DALL?E1的基礎(chǔ)
上進(jìn)行了改進(jìn)和升級(jí),分辨率從從256x256提升到了1024x1024,
準(zhǔn)確性也得到了較大提升。除此之外,其還可以實(shí)現(xiàn)以下功能:1)
根據(jù)文本生成圖片;2)將圖像擴(kuò)展到畫布之外;3)根據(jù)文本對(duì)圖像
進(jìn)行編輯,實(shí)現(xiàn)添加或刪除元素;4)給定一張圖片生成保持原風(fēng)格
的變體。DALL-E2模型可以分為兩部分。首先是利用CLIP文本編碼
器將圖像描述映射到表示空間,其次利用前向擴(kuò)散從CLIP文本編碼
映射到相應(yīng)的CLIP圖像編碼,最后通過反向擴(kuò)散從表示空間映射到
圖像空間,生成眾多可能圖像中的一個(gè)。總體來說,DALL?E2實(shí)現(xiàn)
了功能更齊全的圖文跨模態(tài)生成,圖片的真實(shí)性和準(zhǔn)確度也較以往的
產(chǎn)品有了不錯(cuò)的提升。但是在生成一些復(fù)雜圖片的細(xì)節(jié)方面,
DALLE2仍面臨著一些挑戰(zhàn)。
KOSMOS-1:全能型大語言模型
K0SM0S-1:將多模態(tài)特征嵌入到Transformer模型中,基于統(tǒng)一
的模型架構(gòu)實(shí)現(xiàn)不同模態(tài)的對(duì)齊。2023年3月由微軟提出,其可以
實(shí)現(xiàn)文本學(xué)習(xí)、文本生成等任務(wù),還能夠?qū)⑽谋疽酝獾哪B(tài)(如視覺
圖像、語音)嵌入到模型中。研究證明,在多個(gè)下游任務(wù)中,該模型
具有非常優(yōu)異的性能,例如在語言理解、視覺問答、多模態(tài)對(duì)話等。
KOSMOS-1模型的參數(shù)總量為16億。我們認(rèn)為,隨著技術(shù)的不斷發(fā)
展和迭代,跨模態(tài)模型處理更多模態(tài)問題的能力將不斷增強(qiáng),多模態(tài)
感知的大融合是邁向通用人工智能的關(guān)鍵一步。
GPT-4:支持圖像輸入的ChatGPT升級(jí)版
2023年3月14日,OpenAI發(fā)布GPT-4。GPT-4沿襲了過去GPT
路線,在GPT中引入RLHF機(jī)制,并且輸入窗口更大,更適合處理
長文本,GPT-4的上下文長度為8192個(gè)token,遠(yuǎn)高于GPT-3的
2048個(gè)token。GPT-4文字輸入限制提升到了2.5萬字,回答準(zhǔn)確
率姚顯著高于前模型。GPT-4在各類職業(yè)/學(xué)術(shù)考試上表現(xiàn)優(yōu)秀,與
人類相當(dāng),比如模擬律師考試,GPT-4取得了前10%的好成績,而
GPT-3.5是倒數(shù)10%。GPT-4訓(xùn)練過程更加穩(wěn)定,且響應(yīng)不被允許
請(qǐng)求的概率也大幅度降低。
四、未來方向及演進(jìn)趨勢
多模態(tài)模型要更大,模態(tài)要更多
多模態(tài)大模型需要更深層次的網(wǎng)絡(luò)和更大的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。多模
態(tài)大模型多基于Transformer架構(gòu)進(jìn)行預(yù)訓(xùn)練,而Transformer因其
架構(gòu)特點(diǎn),未看到過擬合趨勢,模型大小、數(shù)據(jù)集都未有飽和趨勢,
CLIP等模型也驗(yàn)證了數(shù)據(jù)量的大小將使得模型性能提升。以語言模
型GPT為例,其從GPT1-3模型大小和預(yù)訓(xùn)練數(shù)據(jù)量均是逐步提升,
和語言模型中類似,多模態(tài)大模型模型大小和數(shù)據(jù)量要逐步提升,例
如,谷歌前不久發(fā)布的多模態(tài)模型PaLM-E,具有5620億參數(shù)?,F(xiàn)
有的多模態(tài)預(yù)訓(xùn)練大模型通常在視覺和語言兩種模態(tài)上進(jìn)行預(yù)訓(xùn)練,
未來可以獲取更多模態(tài)進(jìn)行大規(guī)模預(yù)訓(xùn)練,包括圖像、文本、音頻、
時(shí)間、熱圖像等,基于多種模態(tài)數(shù)據(jù)的預(yù)訓(xùn)練大模型具有更廣闊的應(yīng)
用潛力。
多模態(tài)模型訓(xùn)練要加速
雖然多模態(tài)大模型在多個(gè)領(lǐng)域取得了巨大成功,但是多模態(tài)模型對(duì)算
力的要求還是對(duì)模型的訓(xùn)練造成了很大的難題,因此對(duì)模型訓(xùn)練加速
提出了進(jìn)一步要求。DeCLIP在CL
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司材料欠款合同范本
- 小院改造轉(zhuǎn)讓合同范本
- 墻繪合同范本
- 農(nóng)民蜂蜜銷售合同范本
- 吉林省吉林市豐滿區(qū)2024-2025學(xué)年八年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 廢氣治理合同范本
- XX大學(xué)XX學(xué)院畢業(yè)論文答辯演講模板
- 2025版權(quán)交易的代理合同
- 2025年度智能生產(chǎn)線升級(jí)借款合同
- 2025國內(nèi)技術(shù)轉(zhuǎn)讓合同示范文本
- 2024年山西華陽新材料科技集團(tuán)有限公司招聘筆試真題
- 2025年03月雙鴨山市“市委書記進(jìn)校園”引才活動(dòng)黑龍江能源職業(yè)學(xué)院13人筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 2025年湖南興湘投資控股集團(tuán)有限公司春季校園招聘28人筆試參考題庫附帶答案詳解
- 比例的應(yīng)用(教學(xué)設(shè)計(jì))-2024-2025學(xué)年六年級(jí)下冊數(shù)學(xué)北師大版
- 農(nóng)業(yè)機(jī)械設(shè)備使用與操作指南
- 2025年03月春季甘肅臨夏州引進(jìn)高層次人才和急需緊缺專業(yè)技術(shù)人才344人筆試歷年參考題庫考點(diǎn)剖析附解題思路及答案詳解
- 2025年03月州省氣象部門第二批公開招聘應(yīng)屆高校畢業(yè)生34人(第6號(hào))筆試歷年參考題庫考點(diǎn)剖析附解題思路及答案詳解
- 圖書管理員的崗位技能要求與試題及答案
- 自體輸血管理制度與技術(shù)規(guī)范
- 2025年浙江省初中學(xué)校TZ8共同體中考數(shù)學(xué)一模試卷
評(píng)論
0/150
提交評(píng)論