計(jì)算機(jī)行業(yè)市場分析_第1頁
計(jì)算機(jī)行業(yè)市場分析_第2頁
計(jì)算機(jī)行業(yè)市場分析_第3頁
計(jì)算機(jī)行業(yè)市場分析_第4頁
計(jì)算機(jī)行業(yè)市場分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

計(jì)算機(jī)行業(yè)市場分析

一、多模態(tài)預(yù)訓(xùn)練概述

多模態(tài)表示包含兩個(gè)或兩個(gè)以上事物表現(xiàn)形式

模態(tài)是事物的一種表現(xiàn)形式,多模態(tài)通常包含兩個(gè)或者兩個(gè)以上的模

態(tài)形式,是從多個(gè)視角出發(fā)對(duì)事物進(jìn)行描述。生活中常見多模態(tài)表示,

例如傳感器的數(shù)據(jù)不僅僅包含文字、圖像,還可以包括與之匹配的溫

度、深度信息等。使用多模態(tài)數(shù)據(jù)能夠使得事物呈現(xiàn)更加立體、全面,

多模態(tài)研究成為當(dāng)前研究重要方面,在情感分析、機(jī)器翻譯、自然語

言處理和生物醫(yī)藥前沿方向取得重大突破。

Transformer顛覆傳統(tǒng)模型,但限于單模態(tài)領(lǐng)域

2017年Transformer被提出,顛覆了傳統(tǒng)的深度學(xué)習(xí)模型,在機(jī)器

翻譯任務(wù)上實(shí)現(xiàn)了最好性能。Transformer在大規(guī)模語料庫上進(jìn)行自

監(jiān)督預(yù)訓(xùn)練,然后在下游任務(wù)進(jìn)行微調(diào)受到人們的關(guān)注,許多預(yù)訓(xùn)練

大模型都是遵守這一范式提出,例如BERT、GPT等。雖然基于

Transformer的大模型都取得了很好的效果,但還是限于單一模態(tài)(文

本)上,無法將其self-attention中良好的泛化能力遷移到其他模態(tài)

(圖像、視頻等)中。Transformer不能遷移圖像領(lǐng)域的主要原因在

于輸入長度限制,以BERT為例,其輸入數(shù)據(jù)的長度只能支持512,

而對(duì)于像素為224*224的圖片來講,其輸入遠(yuǎn)大于512o

ViT的出現(xiàn)打通了CV和NLP之間壁壘,推動(dòng)多模態(tài)演進(jìn)

ransformer(Self-attention)在文本領(lǐng)域優(yōu)秀的表現(xiàn)吸引著計(jì)算機(jī)視

覺研究者,許多人開始將Transformer機(jī)制引入到計(jì)算機(jī)視覺。

Transformer限制在于其輸入數(shù)據(jù)大小,需要考慮輸入策略。谷歌借

鑒前人的思想,在強(qiáng)大的算力資源加持下,提出ViT模型。ViT模型

通過將圖片進(jìn)行切割成一個(gè)個(gè)patch(原文將一張圖片切割成16個(gè)

patch),對(duì)patch進(jìn)行處理,通過線性映射,變成Transformer可

接受的輸入,打通了CV和NLP之間的壁壘。

ViT中的Patchembedding在提取視覺特征方面效率優(yōu)勢明顯

ViT不僅能夠讓Transformer能夠?qū)D像進(jìn)行處理,而且ViT圖像特

征提取策略相較于之前的方式效率更高。

基于VisionTransformer,VideoTransformer模型出現(xiàn)

1、視頻領(lǐng)域基于ViT模型推出各類VideoTransformer。視頻是一個(gè)

典型的多模態(tài)形式,里面包含圖像、聲音、文字等。2、在ViT之前,

視頻方面的任務(wù),如視頻理解等,基本是通過3D卷積網(wǎng)絡(luò)展開的。

借鑒ViT思想,許多VideoTransformer被提出來,其中包括

TimeSformer,TimeSformer將每一幀視頻抽象成圖像,并與其前一

幀和后一幀相結(jié)合進(jìn)行運(yùn)算。與3D卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,

TimeSformer的訓(xùn)練速度大約是其4倍,而推斷所需的計(jì)算量不足其

十分之一。TimeSformer的高效讓在高空間分辨率(例如高達(dá)

560x560像素的幀)和長視頻(包括高達(dá)96幀)上訓(xùn)練模型成為可

能。

Transformer權(quán)重共享決定其適合多模態(tài)

Transformer存在權(quán)重共享,模型內(nèi)部的某些模塊可以共享權(quán)重參數(shù)。

Transformer的權(quán)重共享主要是由于其自注意力模塊和前向傳播網(wǎng)絡(luò)

都和輸入序列長度無關(guān)。這種權(quán)重共享理念同樣適合用于多模態(tài)模型

中。例如,圖文多模態(tài)中,圖像訓(xùn)練得到的權(quán)重參數(shù)可以用于訓(xùn)練文

本,結(jié)果依然有效,甚至不用fine-tune。許多多模態(tài)模型都借鑒了

Transformer里面的權(quán)重共享理念,典型的案例包括VLMo模型,該

模型首先在BEiT中使用大規(guī)模純圖像數(shù)據(jù)預(yù)訓(xùn)練視覺網(wǎng)絡(luò)和自注意

力模塊,然后凍結(jié)視覺網(wǎng)絡(luò)和自注意力模塊,通過對(duì)大量純文本數(shù)據(jù)

進(jìn)行建模訓(xùn)練語言網(wǎng)絡(luò),最后使用視覺?語言預(yù)訓(xùn)練整個(gè)模型。

BEiT模型的出現(xiàn)將生成式預(yù)訓(xùn)練從NLP遷移到CV上

生成式預(yù)訓(xùn)練是自監(jiān)督學(xué)習(xí)重要方法和訓(xùn)練目標(biāo),生成式預(yù)訓(xùn)練核心

是在沒有標(biāo)簽或者人工標(biāo)注的情況下,學(xué)習(xí)如何產(chǎn)生數(shù)據(jù)。生成式預(yù)

訓(xùn)練在自然語言處理中取得較大成功。BEiT模型的出現(xiàn),將生成式

預(yù)訓(xùn)練從NLP遷移到CV上,就是將BERT中的掩碼語言學(xué)習(xí)(MLM)

方法應(yīng)用到圖像領(lǐng)域。之后的MAE模型也是基于BEiT的工作展開

的。如果說ViT將Transformer遷移至1」CV中,那么BEiT就是將BERT

遷移到CV中。

多模態(tài)模型大一統(tǒng)成趨勢

2022年8月,微軟推出B日T-3模型,引領(lǐng)圖像、文本、多模態(tài)邁向

大一統(tǒng)。BEiT-3提出了掩碼圖像建模,將maskeddatamodeling引

入到圖像預(yù)訓(xùn)練任務(wù),將圖像和文本同等看待,以統(tǒng)一的方式對(duì)圖像、

文本、圖像-文本對(duì)進(jìn)行建模和學(xué)習(xí)。實(shí)際上,微軟在2021年11月

就推出了統(tǒng)一模型VLMO,使用混合模態(tài)專家(MOME)的方式來

進(jìn)行不同模態(tài)中進(jìn)行預(yù)訓(xùn)練,訓(xùn)練出不同的編碼器,用于不同的下游

任務(wù)。BEiT-3在其基礎(chǔ)上簡化模型并增大預(yù)訓(xùn)練數(shù)據(jù)量,最終在多

項(xiàng)下游任務(wù)上表現(xiàn)亮眼。2023年3月15日,微軟旗下OpenAI推出

多模態(tài)大模型GPT-4。

多模態(tài)廣泛存在于機(jī)器人、數(shù)字人、智能家居等領(lǐng)域

多模態(tài)在交互、感知、內(nèi)容分發(fā)等眾多領(lǐng)域都有較為重要的地位c多

模態(tài)交互在家庭與辦公場景下應(yīng)用廣泛,多模態(tài)交互可以進(jìn)一步提升

用戶與智能家居設(shè)備的交互體驗(yàn),提升了用戶完成相同意圖的效率與

成功率。多模態(tài)感知包括車場景和語音助手下的用戶意圖感知,例如,

在駕車場景中,隨著多屏主控等智能座艙技術(shù)進(jìn)步,各種智能終端可

以通過多模態(tài)交互實(shí)現(xiàn)意圖識(shí)別準(zhǔn)確率更高的用戶體驗(yàn)。多模態(tài)內(nèi)容

分發(fā)場景下,虛擬人結(jié)合動(dòng)作、表情、情感、文本等信息,輸出給用

戶。

二、多模態(tài)預(yù)訓(xùn)練關(guān)鍵要素

圖文需要Tokenization和Embedding

Token是模型輸入的基本單元,Embedding是Token映射后的向量,

用于計(jì)算。文字方面早期一般使用Word2Vec進(jìn)行Tokenization,包

括CBOW和skip-gram,雖然Word2Vec計(jì)算效率高,但是存在著

詞匯量不足的問題,因此子詞分詞法(subwordtokenization)被提出,

使用字節(jié)對(duì)編碼(BPE)將詞分割成更小的單元,該方法已被應(yīng)用于

BERT等眾多Transformer模型中。圖像的Tokenization要比文本更

加復(fù)雜,可以分為基于region,基于grid和基于patch三類方式。基

于grid的方式直接使用CNN進(jìn)行圖像網(wǎng)格信息提取,基于region

的方式由預(yù)訓(xùn)練的目標(biāo)檢測器進(jìn)行特征提取,基于patch的方式將圖

像切割成小塊,提取小塊上的線性投影。

多模態(tài)模型中要重視視覺特征

相較于文本特征而言,多模態(tài)模型中視覺特征更為重要。當(dāng)前多模態(tài)

預(yù)訓(xùn)練大模型中,不論CLIP、UNITER還是ViLT,在模型構(gòu)造方面,

視覺特征的embedding層數(shù)或者復(fù)雜度要超過文本特征,體現(xiàn)出視

覺特征更重要,多模態(tài)需要從視覺特征中學(xué)習(xí)到更多知識(shí)。根據(jù)

METER模型中的數(shù)據(jù)顯示,在視覺特征端進(jìn)行優(yōu)化對(duì)結(jié)果產(chǎn)生的影

響要遠(yuǎn)大于對(duì)文本端進(jìn)行的優(yōu)化。

如何設(shè)計(jì)學(xué)習(xí)目標(biāo)是多模態(tài)訓(xùn)練的重要一步

學(xué)習(xí)目標(biāo)是多模態(tài)預(yù)訓(xùn)練非常重要的一步,目前的多模態(tài)的預(yù)訓(xùn)練學(xué)

習(xí)任務(wù)主要包括圖文對(duì)比(ITC)、掩碼語言學(xué)習(xí)(MLM)、掩碼視

覺學(xué)習(xí)(MVM)、圖文匹配(ITM)等。ITC是通常構(gòu)造正負(fù)樣本對(duì),

通過對(duì)比學(xué)習(xí)方式,對(duì)齊圖像和文本;ITM可以看作是一個(gè)二分類任

務(wù),目標(biāo)是預(yù)測一對(duì)圖像和文本是否匹配;MLM是讓模型學(xué)習(xí)語言

和視覺內(nèi)容之間的隱式關(guān)系,目標(biāo)是從已知的語言和視覺內(nèi)容中重建

掩碼語言標(biāo)記;此外還包括掩碼物體分類(MOC)、掩碼物體回歸

(MOR)、行為預(yù)測(AP)、圖文生成(ITG)等。

不同的多模態(tài)預(yù)訓(xùn)練學(xué)習(xí)目標(biāo)可能帶來不一樣的結(jié)果

同時(shí)使用不同的預(yù)訓(xùn)練學(xué)習(xí)目標(biāo)可能會(huì)增強(qiáng)多模態(tài)模型的效果,例如

UNITER模型中,使用更多的學(xué)習(xí)目標(biāo)效果一般要更好,UNITER使

用MLM+ITM+MRC-kl+MRFR+WRA等多個(gè)學(xué)習(xí)目標(biāo)在在多個(gè)細(xì)分

場景下表現(xiàn)要更好。使用過多的學(xué)習(xí)目標(biāo)可能效果并不好。例如,

METER模型中,在MLM和ITM上再加入MIM學(xué)習(xí)模型,效果比使

用單個(gè)學(xué)習(xí)目標(biāo)要好,但不如僅僅使用兩個(gè)學(xué)習(xí)目標(biāo),這一方面可能

是學(xué)習(xí)目標(biāo)之間的沖突導(dǎo)致的,另外一方面可能是圖像中存在噪聲,

MIM重建圖像噪聲的監(jiān)督學(xué)習(xí)沒有任何意義導(dǎo)致的。

三、主要模型與下游場景

CLIP:使用對(duì)比學(xué)習(xí)實(shí)現(xiàn)圖文對(duì)齊

CLIP:2021年由OpenAI提出,利用文本信息監(jiān)督視覺任務(wù)自訓(xùn)練,

訓(xùn)練數(shù)據(jù)集為40億個(gè)“文本?圖像'對(duì),采用Transformer模型對(duì)圖像

的patch序列進(jìn)行建模,將不同模態(tài)的原始數(shù)據(jù)映射到統(tǒng)一或相似的

語義空間,實(shí)現(xiàn)不同模態(tài)信號(hào)間的相互理解,擁有尋找不同模態(tài)數(shù)據(jù)

間關(guān)系的能力。

CLIP在zero-shot上表現(xiàn)較好。與CV中常用的先預(yù)訓(xùn)練然后微調(diào)不

同,CLIP可以直接使用prompt進(jìn)行零樣本學(xué)習(xí)圖像分類,即不需要

任何訓(xùn)練數(shù)據(jù),就能在某個(gè)具體下游任務(wù)上實(shí)現(xiàn)分類。

DALLE2:基于CLIP實(shí)現(xiàn)更強(qiáng)大的圖文跨模態(tài)生成

DALL-E2:基于CLIP實(shí)現(xiàn)文本與圖像的聯(lián)系,基于D訐fusion從視

覺語義生成圖像。2022年4月由OpenAI提出,在DALL?E1的基礎(chǔ)

上進(jìn)行了改進(jìn)和升級(jí),分辨率從從256x256提升到了1024x1024,

準(zhǔn)確性也得到了較大提升。除此之外,其還可以實(shí)現(xiàn)以下功能:1)

根據(jù)文本生成圖片;2)將圖像擴(kuò)展到畫布之外;3)根據(jù)文本對(duì)圖像

進(jìn)行編輯,實(shí)現(xiàn)添加或刪除元素;4)給定一張圖片生成保持原風(fēng)格

的變體。DALL-E2模型可以分為兩部分。首先是利用CLIP文本編碼

器將圖像描述映射到表示空間,其次利用前向擴(kuò)散從CLIP文本編碼

映射到相應(yīng)的CLIP圖像編碼,最后通過反向擴(kuò)散從表示空間映射到

圖像空間,生成眾多可能圖像中的一個(gè)。總體來說,DALL?E2實(shí)現(xiàn)

了功能更齊全的圖文跨模態(tài)生成,圖片的真實(shí)性和準(zhǔn)確度也較以往的

產(chǎn)品有了不錯(cuò)的提升。但是在生成一些復(fù)雜圖片的細(xì)節(jié)方面,

DALLE2仍面臨著一些挑戰(zhàn)。

KOSMOS-1:全能型大語言模型

K0SM0S-1:將多模態(tài)特征嵌入到Transformer模型中,基于統(tǒng)一

的模型架構(gòu)實(shí)現(xiàn)不同模態(tài)的對(duì)齊。2023年3月由微軟提出,其可以

實(shí)現(xiàn)文本學(xué)習(xí)、文本生成等任務(wù),還能夠?qū)⑽谋疽酝獾哪B(tài)(如視覺

圖像、語音)嵌入到模型中。研究證明,在多個(gè)下游任務(wù)中,該模型

具有非常優(yōu)異的性能,例如在語言理解、視覺問答、多模態(tài)對(duì)話等。

KOSMOS-1模型的參數(shù)總量為16億。我們認(rèn)為,隨著技術(shù)的不斷發(fā)

展和迭代,跨模態(tài)模型處理更多模態(tài)問題的能力將不斷增強(qiáng),多模態(tài)

感知的大融合是邁向通用人工智能的關(guān)鍵一步。

GPT-4:支持圖像輸入的ChatGPT升級(jí)版

2023年3月14日,OpenAI發(fā)布GPT-4。GPT-4沿襲了過去GPT

路線,在GPT中引入RLHF機(jī)制,并且輸入窗口更大,更適合處理

長文本,GPT-4的上下文長度為8192個(gè)token,遠(yuǎn)高于GPT-3的

2048個(gè)token。GPT-4文字輸入限制提升到了2.5萬字,回答準(zhǔn)確

率姚顯著高于前模型。GPT-4在各類職業(yè)/學(xué)術(shù)考試上表現(xiàn)優(yōu)秀,與

人類相當(dāng),比如模擬律師考試,GPT-4取得了前10%的好成績,而

GPT-3.5是倒數(shù)10%。GPT-4訓(xùn)練過程更加穩(wěn)定,且響應(yīng)不被允許

請(qǐng)求的概率也大幅度降低。

四、未來方向及演進(jìn)趨勢

多模態(tài)模型要更大,模態(tài)要更多

多模態(tài)大模型需要更深層次的網(wǎng)絡(luò)和更大的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。多模

態(tài)大模型多基于Transformer架構(gòu)進(jìn)行預(yù)訓(xùn)練,而Transformer因其

架構(gòu)特點(diǎn),未看到過擬合趨勢,模型大小、數(shù)據(jù)集都未有飽和趨勢,

CLIP等模型也驗(yàn)證了數(shù)據(jù)量的大小將使得模型性能提升。以語言模

型GPT為例,其從GPT1-3模型大小和預(yù)訓(xùn)練數(shù)據(jù)量均是逐步提升,

和語言模型中類似,多模態(tài)大模型模型大小和數(shù)據(jù)量要逐步提升,例

如,谷歌前不久發(fā)布的多模態(tài)模型PaLM-E,具有5620億參數(shù)?,F(xiàn)

有的多模態(tài)預(yù)訓(xùn)練大模型通常在視覺和語言兩種模態(tài)上進(jìn)行預(yù)訓(xùn)練,

未來可以獲取更多模態(tài)進(jìn)行大規(guī)模預(yù)訓(xùn)練,包括圖像、文本、音頻、

時(shí)間、熱圖像等,基于多種模態(tài)數(shù)據(jù)的預(yù)訓(xùn)練大模型具有更廣闊的應(yīng)

用潛力。

多模態(tài)模型訓(xùn)練要加速

雖然多模態(tài)大模型在多個(gè)領(lǐng)域取得了巨大成功,但是多模態(tài)模型對(duì)算

力的要求還是對(duì)模型的訓(xùn)練造成了很大的難題,因此對(duì)模型訓(xùn)練加速

提出了進(jìn)一步要求。DeCLIP在CL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論