多模態(tài)基礎大模型技術白皮書_第1頁
多模態(tài)基礎大模型技術白皮書_第2頁
多模態(tài)基礎大模型技術白皮書_第3頁
多模態(tài)基礎大模型技術白皮書_第4頁
多模態(tài)基礎大模型技術白皮書_第5頁
已閱讀5頁,還剩179頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

3 6 6 18 27 38 51 54 72 76 4.3從謀求模型與數(shù)據(jù)規(guī)模的“極致”,向 80 90 92 1伴隨互聯(lián)網(wǎng)/行業(yè)大數(shù)據(jù)、并行計算能力、機器學習算法的突破和人Transformer、華為盤古、悟道、ERINE、M6等大規(guī)模預訓練模型快件下“大數(shù)據(jù)+大模型”的大規(guī)模預訓練范式轉變,即基于海量廣域第二名。2019年以后,基于自監(jiān)督學習的語言模型已成為基礎性方2破很相似,標志著一個大模型時代的開始。當下,自然語言處理模型(State-Of-The-Artmodel,S使不同領域任務在統(tǒng)一框架下實現(xiàn)基于低標注代價的性能提升?一34562多模態(tài)基礎大模型國內外發(fā)展現(xiàn)狀7L(x)=ilogP(xi|xi-k,…,xi-1;θ)自編碼的預訓練方法代表性的工作是掩碼語言模型,如BERT。簡單來說,模型需要通過對于遮蓋數(shù)據(jù)的預測進行參數(shù)優(yōu)化。如圖8對于句子x,假設其中存在m個需要預測的詞匯,那么其損失函L(x)=Σi1logP([mask]i=yi|x-,θ)9MASS能夠對編碼器和解碼器進行聯(lián)合訓練提高特征抽取和語言模型要和對話生成等,進行參數(shù)微調能夠獲得較好的性能。BART通過先損壞文檔再解碼恢復的策略實現(xiàn)從損壞文檔到原始文檔之間的魯棒映射。另一類方法使用注意力機制將理解和生成任務結合起來,如和性能表現(xiàn);MacBERT[15]則使用相似詞替換[MASK]字符,以緩和預融合多語言的預訓練模型旨在使用同一套參數(shù)處理多種不同的多語言融合的預訓練模型往往能夠在跨語言任務上取得不錯的一些工作希望將知識圖譜中的事實三元組信息融入到預訓練模階段使用知識對于文本表示進行增讓,如K-BERT[16],它使用樹狀更深層次的信息,從而在后續(xù)的解碼階段模型才能夠生成語義通順、PLATO-XL[17]也成為了全球最大的對話生成模型。2019年百度發(fā)布了通用領域的對話模型PLATO,該模型首次提出了將離散隱變量與Transformer的編碼器-解碼器結構相結合,離散隱變量的每一個取增加訓練集數(shù)據(jù),將模型增加到16億參數(shù)。此外,PLATO-2將具體估模型則用來學習回復的一致性從而選擇最合適的回復。PLATO-XL以生成更加流程一致的回復。PLATO-XL憑借其千億級的訓練語料和百億級的參數(shù)規(guī)模已經(jīng)在各類評估指標上顯著超越了目前主流的對Facebook提出的Blender對話模型具有僅次于PLATO-XL的94三個子模型:檢索模型、生成模型、檢索+生成模型。檢索模型以對方式,首先檢索出候選的回復,再將該候選傳入生成器中作為參考,1)模型會經(jīng)常重復對方的說話內容,產生較為普遍的迎合式或2)模型無法記住所有的歷史信息,也無法根據(jù)對話內容建立邏3)模型缺乏對知識和客觀事實的理解,除非針對特定領域精心意力、混合專家模型(MixtureofExpert)等。最近,混合專家模由于超大規(guī)模預訓練模型本身大量的參數(shù)難以進行全參數(shù)的微而同時不可忽視的是,無監(jiān)督/自監(jiān)督學習這類方法已經(jīng)革新了自然/自監(jiān)督學習將是實現(xiàn)人類智能的關鍵,被廣泛認為是通往通用人工習到的視覺特征遷移到下游任務(downstreamtask),使用少量帶202122深度圖像聚類:深度圖像聚類[26]是將聚類與深度結合的方法,棄填補0像素值,之后利用卷積神經(jīng)網(wǎng)絡的編碼-解碼結示。在訓練完成后,將編碼-解碼模塊的部分參數(shù)作為預訓練模型應23了極大的突破,其成功基于兩方面:1).視覺Transformer的提出,為計算機視覺和自然語言處理的預訓練統(tǒng)一奠定了基礎;2).分析了MAE[28]的框架圖如圖2.2-6所示。圖像經(jīng)過線性層映射成詞條在密集預測的下游任務中使用。此外微軟亞研院提出的BEiT[29]、24),MoCo:此方法基于對比學習的基礎上提出了記憶池(memorybank),該方法使用一個在內存中的memorybank保存以往樣本的特25SimCLR:此方法基于對比學習的基礎上,將同一個批次(batch)比學習的思想,即對于同一圖像的不同視角仍然是一個類別。BYOL26表方法:DeepMind提出的多任務學習框架[38],中科院自動化所提DeepMind提出的方法由4個自監(jiān)督任務組成:(a)切片的相對位27學習工作iBoT[40],參考MST利用教師模型產生的信息給予學生模2829歸預測編碼VQ-APC(Vector-來源:https://arxiv.or2019年臺灣大學AndyT.Liu等人提出了一種新的語音表示學習方法Mockingjay[48],該方法使用雙向的TransformerEncoder30別、基于語音的情感分析等。除此之外,實驗證明用Mockingjay方現(xiàn);在Mockingjay模型的基礎上,該團隊又提出了兩種進階優(yōu)化版來源:/31絡,并且加入了一個VQ模塊學習離散化的特征,在下游任務上取得來源:https://arxiv.or32來源:https://arxiv.or除了上述介紹的一系列基于掩碼重構的預訓練方法,AlexanderH.Liu等人提出一種使用兩側幀的信息預測中間幀信息的預訓練方[51],通過感受野限制信息的前向傳遞過程來確保重建過程只依賴于(mask)的幀前后的幀,從而可以進一步提升模來源:https://arxiv.or33比學習的語音預訓練模型CPC[52],模型直接使用原始音頻數(shù)據(jù)作為來源:https://arxiv.orWav2Vec[53],如圖2.3-8所示,將原始音頻信號作為輸入,然后應34文網(wǎng)絡將編碼器的多個時間步組合在一起以獲得上下文表示。Wav2Vec首次嘗試使用卷積神經(jīng)網(wǎng)絡用于ASR領域通過對比學習令當前輸出的特征去預測未來時刻的特征。通過來源:/pub/2019_Wav2Vec_interspeech.pdf進階優(yōu)化版本VQ-Wav2Vec[54]了同年自然語言處理NLP領域提出來的BERT中的思想,首先在信息捕捉能力,在各種下游任務中都能達到當時的最佳性能。35圖2.3-9VQ-Wav2Vec框架圖來源:/2020年Facebook該團隊再次將VQ-Wav一步的改進和優(yōu)化,將原先VQ-Wav2Vec兩階段的預訓練合并到了一接在下游任務進行微調。Wav2Vec2.0能夠學習到用于解決自監(jiān)督任來源:/pdf/2006.11477.pdf36督語音表征的新方法HuBERT[56],HuBERT借鑒了自監(jiān)督視覺表HuBERT通過學習未掩碼音頻的連續(xù)表征編碼以及捕捉所學表征詞匯資源。HuBERT在語音識別、語音生成、語音壓縮等多種語音任來源:https://arxiv.or37預測的方法對離散化的語音進行建模。Wav2Vec-BERT使用端到端的等下游任務上進一步刷新了同期最好模型的性能。一種利用多個自監(jiān)督訓練任務來學習語音表示的工作問題無關語音型可以學習到問題無關的語音特征。通過P來源:https://arxiv.or38隨著基于TransformerEncoder的BERT[59]的出現(xiàn),基于大規(guī)等。VL-BERT提出一種圖像+文本的多模態(tài)預訓練模型,該模型將圖像的文本描述和目標區(qū)域作為BERT的輸入,通過隨機掩碼(mask)掉視頻+文本的預訓練模型,使用融合文本信息和視頻序列作為輸入。UNITER提出了一種多任務的多模態(tài)預訓練方法,相對于其它方法,作者增加了圖文匹配模塊,來更進一步建立圖像與文本之CLIP[65]等。ViLBERT提出使用Tra測和圖文匹配預測兩種預訓練任務。LXMERT呈現(xiàn)與ViLBERT類似的雙流結構,主要的不同在于LXMERT引入視覺問答作為預訓練任務,因而在下游的視覺問答任務能夠實現(xiàn)比ViLBERT更高的性能。CLIP39[65]模型是一個雙塔結構,一條分支使用ResNet/ViT進行圖像特征編碼,另一條分支使用BERT進行文本特征編碼,最后使用對比學習越來越多的關注。該系列模型采用Transformer的解碼部分。GPT-3機構發(fā)布基于大規(guī)模預訓練的文本到圖像生成一個鱷梨形狀的扶手椅。雖然DALL-E在一定程度上提供了對少量物對象時,DALL-E容易混淆對象及其顏色之間的關聯(lián),成功率會急?。?,現(xiàn)比DALL-E更好的結果,同時只需微調就能執(zhí)行超分辨率、風格遷40M6[72]等。VL-T5使用編解碼結構,將一系列多模態(tài)任務都統(tǒng)一建預訓練任務。阿里巴巴達摩院提出M6模型,共享編碼器和解碼器的任務。實體概念等先驗語義知識,學習真實世界的語義關系。具體來說,念的語義表示。相較于BERT學習原始語言信號,ERNIE直接對先驗一個知識增強的ERNIE模型[74],與百度所提出的ERNIE不同的是,該模型修改了BERT的結構,將知識圖譜引入到了模型中,能同時在41研究者設計了一種新型預訓練目標,即隨機Mask掉一些對齊了輸入齊?,F(xiàn)存的預訓練表征模型只利用局部上下文預測Token,但ERNIE的新目標要求模型同時聚合上下文和知識事實的信息,并同時預測比如,微軟和華盛頓大學提出OSCAR模型[75],引入目標類別標簽(objecttags)作為橋梁,來連接視覺和文本模態(tài),幫助更好地對2.4.6大規(guī)模超參模型的優(yōu)化方法與泛化理論42監(jiān)督/自監(jiān)督預訓練模型上的應用還少有出現(xiàn)。此外,用千萬量級數(shù)模型參數(shù)數(shù)量并不能很好地描述模型復雜度,特別是當模型的43在人工智能平臺方面,2016年谷歌DeepMind開源了DeepMindLab3D游戲平臺,主要面向智能體的人工智能研究,代表性工作包括AlphaGo[95]、AlphaZero[96]、具有計劃能力的MuZero[97]和提供的游戲、網(wǎng)站或其他的應用程序評價和訓練一個AI通用智能模型,代表性的工作是Gym訓練接口和GPT-3系列。2019年谷歌在GoogleCloudNext2019大會推出了AI平臺,便于開發(fā)人員和數(shù)據(jù)學習表格(AutoMLTables)獲取數(shù)據(jù)庫中的表數(shù)據(jù)并自動創(chuàng)建模型預Vision)便于在邊緣設備上部署并檢測圖片中的物體。這些工具和服務可以組合起來應用在特定垂直領域,譬如新零售、搜索等。2018年臉書開源強化學習AI平臺Horizon主要解決端到端行業(yè)應用的強化學習平臺,主要應用在機器人和游戲等場景。大模型方面,國際上比較有代表性的單位有OpenAI、微軟、谷據(jù)和參數(shù)呈指數(shù)上升,通過無監(jiān)督學習條件下的“大數(shù)據(jù)+大模型”44模仿寫作、翻譯、聊天、生成代碼、數(shù)學分析、制作簡歷、設計網(wǎng)頁等,因此吸引了全球AI領域的關注,被廣泛認為是通往通用人工智能(AGI)的重要途徑之一。GPT-3采用預訓練語等方法,證明了基于“大數(shù)據(jù)+大規(guī)?!钡募夹g路計算機代碼并具有巨大的潛力——如果它創(chuàng)建的計算機代碼被證明源下,其訓練速度上比Google之前研發(fā)的最大模型T5-XXL還要快4倍。它由混合專家(MixofExpert,MoE)AI模型范式發(fā)展而來。45的圖像可以像在現(xiàn)實世界中拍攝的一樣。與此同時發(fā)布的Megatron驅動的Megatron-Turing自然語言生成模型(MT-),這是迄今為止訓練的最大和最強大的解碼語言模型。這個模型包括微調可以提高GPT-3在某些任務上的性能。OpenAI還發(fā)現(xiàn),結果質46調,一個用戶能夠將正確輸出率從83%提高到95%。另一用戶通過每周添加他們產品的新數(shù)據(jù),將錯誤率降低了50%。型開發(fā)平臺、大模型高效推理工具包BMInf、全新升級的AI文圖繪舉辦新聞發(fā)布會,聯(lián)合發(fā)布全球首個知識增強千億大模型——“鵬),47技術,模型參數(shù)壓縮率可達99.98%。壓縮版模型僅保留0.02%參數(shù)大模型為核心,基于全棧國產化基礎軟硬件平臺,可支撐全場景AI音生圖,將開拓AI在視頻配音、語音播報、標題摘要、海報創(chuàng)作等更多元場景的應用。48構為:最底層是微芯片層;第二層是百度自研的深度學習框架百度在開發(fā)方式方面提供云和端兩種開放的方式-云端結合。最右側的AI市場是為開發(fā)者和合作伙伴、企業(yè)搭建的上下游產品服務交易阿里云AI平臺依托其算法技術、云計算基礎設施和平臺服務,了MoE模型,并通過更細粒度的CPUoffload技術,最終實現(xiàn)為通用性AI大模型,M6擁有多模態(tài)、多任務能力,尤其擅長設計、用前景。與傳統(tǒng)AI相比,大模型擁有成百上千倍神經(jīng)元數(shù)量,認知49需能耗,能讓一輛汽車在地月之間往返一趟。2021年5月,通過專家并行策略及優(yōu)化技術,達摩院M6團隊將萬億模型能耗降低超過為強大的AI處理能力。華為云盤古系列大模型包括NLP(中文語言)結合,盤古大模型能快速實現(xiàn)不同場景的適配,加速AI行業(yè)應用,族還在不斷壯大,2021年9月華為云新推出盤古藥物分子大模型,其研究了17億個小分子的化學結構,可以高效生成藥物新分子,計定向優(yōu)化,實現(xiàn)全流程的AI輔助藥物設計。結合華為云盤古大模型50騰訊云TI平臺是基于騰訊云強大計算能力的一站式機器學習生訓練、評估和預測。TI系列產品支持公有云訪問、私有化部署以及專屬云部署。TI-ACC是騰訊云AI和優(yōu)圖實驗室最新發(fā)布的一款AI類任務1.0和1.1中拿下業(yè)界第一的好成績。騰訊云自然語言處理2021年9月28日,浪潮人工智能研究院宣布推出大模型“源51和570GB訓練數(shù)據(jù)集,“源1.0”的參數(shù)規(guī)模增加了其人工智能戰(zhàn)略愿景,提出了三個核心行動支柱1)投資并規(guī)強國的領導地位2)支持向人工智能賦能經(jīng)濟轉型,從英國創(chuàng)新中獲益,確保人工智能惠及所有產業(yè)和地區(qū)3)確保英國獲得人工智能技術的治理權,以鼓勵創(chuàng)新和投資,保護公眾和基本價值觀。會—國家人工智能咨詢委員會(NAIAC)。該委員會將就人工智能相5253超大規(guī)模訓練數(shù)據(jù)的可用性。未來AI發(fā)展的最大趨勢主要包括:從再變成小模型等。同時以低代碼低成本高效率的AI模型算法快速開這些趨勢上的變化,在應用層面上也早有顯露。實現(xiàn)AI模型工業(yè)化的必要條件是標準化、輕量化和通用化,并結合SaaS商業(yè)模式54可行路徑,將打破傳統(tǒng)AI模型“手工作坊式”的行業(yè)瓶頸。3多模態(tài)大模型關鍵技術量的無標注文本數(shù)據(jù)上采用相應的訓練方法訓練得到最終的預訓練種技術也成為了預訓練大模型關鍵技術之一。為此,本節(jié)將從務的應用方式以及預訓練大模型的并行訓練與部署等四個方面對大55單詞的表示向量X,X由單詞的嵌入表達(Embedding就的編碼信息傳遞到解碼器中,解碼器依次會根據(jù)當前看見過的單詞組成的。針對句子中的每個詞,自注意力根據(jù)輸入線性變換得到的56(ResidualConnection)用于防止網(wǎng)絡退化,Norm表示層歸一化57基于微調的方法是指在完成預訓練模型在大規(guī)模無標注數(shù)據(jù)上型針對不同任務的微調方式,在BERT模型中,針對文本分類模型,微調時在每個輸入對應的[CLS]表示后接一個全連接層作為分類輸出拼接,之后再采用輸出中的[CLS]的表示做分類。對于58等有具體情感傾向的詞,最后再將這些詞映射為相應的情感類別中, 的預訓練語言模型可以被用來解決各種各樣的下游任59采用多機多卡的訓練方式是緩解大規(guī)模預訓練模型難以訓練的步等問題受到了許多關注,各種訓練框架也應運而生。Nvidia開發(fā)的Megatron-LM訓練框架可以直接將大規(guī)模預訓練語言模型在多機行的能力,并支持APEX的混合精度加速訓練,下圖為Megatron-LM60基于MoE的預訓練模型提供了高效的分布式訓練框架。將大規(guī)模的預訓練語言模型通過知識蒸餾縮減為小規(guī)模模型成為了實際應用中常用的方式。知識蒸餾使用教師模型(在這里即為大規(guī)模預訓練模型)的輸出和數(shù)據(jù)的真實標簽去訓練學生模型。這樣可以將甚至3D(視頻),這就造成在同等參數(shù)規(guī)模下,視覺模型往往具有前視覺大模型在模型規(guī)模上落后于文本等領域模型規(guī)模的主要原因。6162(a)ViT大模型訓練曲線與批次大小關系圖(b)ViT大模型訓練曲線與學習率大小關系圖(AdamW優(yōu)化器)(c)ViT大模型訓練曲線與學習率大小關系圖(LAMB優(yōu)化器)MOCOv3發(fā)現(xiàn)這種不穩(wěn)定性主要是由于訓練過程中梯度的突變導略,掩碼比例高達75%,并且實驗表明這種預訓練方式不僅能夠獲得63隨著模型參數(shù)規(guī)模的不斷增大,性能也趨向飽和[11,12,20],如圖圖3.2-2稠密大模型訓練時間顯著增加【圖片來源于[19]】64圖3.2-3模型大小、數(shù)據(jù)集大小與上下游任務精度關系【圖片來源于[20]】家模型(MoE,MixtureofExperts)。稀疏擴容最早應用于NLP領在視覺預訓練任務中,也有少部分工作嘗試對模型進行稀疏擴容在ImageNet上的精度只略高于現(xiàn)有中型模型。此65圖3.2-4SwitchTransformer稀疏擴容示意圖【圖片來源于[21]】66某個評估方式下性能表現(xiàn)好并不代表在其他評估方式下具備同樣的67此外,視覺大模型方面,面對多種多樣的視覺任務,采用APC和VQ-APC都是基于自回歸的語音預訓練模型,模型的輸入68Mockingjay是一種使用雙向Transformer編碼網(wǎng)絡在大規(guī)模無過過去時刻的信息對未來時刻的信息進行預測,而Mockingjay通過過去和未來幀的信息來共同預測當前幀的信息。為了實現(xiàn)這一點,通過該任務來學習語音的特征表示。掩碼聲學建模的方式與Bert中掩碼語言建模的方式(MaskedLanguageModel)類似,選擇15%的80%會被置為0,10%保持不變,另外10%替換成其他任意幀,型根據(jù)上下文信息對被遮蓋的幀進行預測,模型使用L1損失函數(shù)來69神經(jīng)網(wǎng)絡(CNN)作為非線性編碼器將分割的時間窗口上每個觀測值主要方法是將來自于當前上下文特征表示相隔k個步長的樣本作為前上下文特征之間的互信息同時最小化負樣本與當前上下文特征之70VQ-Wav2Vec在Wav2Vec的基礎上做了進一步的改進,在特征編碼器的后面加了一層量化模塊,使用K-means或者Gumbal-softmax1)使用CNN特征編碼器、量化模塊、CNN上下文模塊,基于對2)基于VQ-Wav2Vec的離散化輸出,參考BWav2Vec2.0又在VQ-Wav2Vec的基礎上將訓練流程做了進一步優(yōu)71不同于其他語音無監(jiān)督學習方法,Wav2Vec2.0沒有嘗試對音頻些建模單元使得模型將注意力集中在代表語音音頻的最重要因素上。Wav2Vec2.0只需要很少的訓練數(shù)據(jù)就可以取得不錯的性能,通過跨語言的預訓練,Wav2Vec2.0還可以學習多種語言使用的語音單元,極大地降低了很多小語種語音識別中資源不足的問題。HuBERT是一種使用掩碼預測任務(maskedpredition)來學習通過在聚類和預測過程之間交替,HuBERT會隨著時間的推移改進其722)每一幀獲取學習目標之后,針對掩碼的位置,進行掩碼預測3)進行迭代式的聚類,基于之前的預訓練模型,根據(jù)預訓練模HuBERT成功實現(xiàn)了對語音信號的直接語言建模,在低資源語音73目前應用深度學習技術時通常把數(shù)據(jù)獲取和數(shù)據(jù)處理兩部分分計算的網(wǎng)絡模型結構,改進甚至是替代Transformer。74效的訓練方式?,F(xiàn)在的預訓練都是基于Softmax、回歸或者對比損失預訓練模型通常需要領域標注數(shù)據(jù)進行微調來實現(xiàn)具體下游任75級訓練,從而得到小模型。第二種方式類似現(xiàn)在NLP中非?;鸬膒rompt方法,它跟蒸餾其實非常像,相當于預先找到了一個最佳的764多模態(tài)大模型產業(yè)分析NLP領域幾乎所有的同期最好模型都是少數(shù)幾個基于Transformer的771科技部新一代人工智能發(fā)展研究中心:《中國新一代人工智能發(fā)展報告》78適配訓練套件和AI算法工具包等。基礎軟硬件已經(jīng)成為人工智能基),79但只是單純在現(xiàn)有基礎上進行擴大,并且發(fā)現(xiàn)ROI(投資回報率)比804.4多模態(tài)大模型成為人工智能基礎設施,模型研發(fā)從“手工作坊”行業(yè)痛點。大部分AI項目落地還停留在“手工作坊”階段,要實現(xiàn)AI模型落地全流程,需要包括確定需求、數(shù)據(jù)收集、模型算法訓練調優(yōu)、應用部署和運營維護等階段。這需要AI研發(fā)人員扎實的專業(yè)知識和協(xié)同合作能力。近期比較有影響力的DALL-E和CLIP,前者是用于給定模板化文本輸81于詞條級別(Token-level)、模態(tài)級別(M以多模態(tài)大模型為核心的通用人工智能平臺上,可以讓AI模型研發(fā)82人效低。作為AI新基礎設施的多模態(tài)預訓練大模型成為降低人員研大模型可以解決傳統(tǒng)AI模型難以泛化和復制的難題,基于大模型可快的完整鏈條閉環(huán),大幅提升AI模型的開發(fā)效率,降低面向不同項5多模態(tài)大模型典型應用及潛在應用場景83題,用戶才愿意為此買單,實現(xiàn)AI模型賦能各行各業(yè)。媒體多模態(tài)大模型”,將加速推動AI在如視頻配音、語音播報、標以及手勢/觸覺等其他方式。對話一般包括閑聊、知識型問答和任務84要應用場景。大模型有助于實現(xiàn)更智能的對話客服服務應用。根據(jù)85平臺、大模型高效推理工具包BMInf、全新升級的AI文圖繪畫大師賦能產業(yè)應用案例:冬奧會語音播報數(shù)字人和OPPO小布助手問答系小布助手開放式對話的長尾問題,單條回答建設成本降低99%。86DeepMind聯(lián)合谷歌旗下生物科技公司Calico,開發(fā)了一種結合87流程。但是基于文到圖生成技術,可以直接把流行的款式描述輸入88使用原來5%左右的樣本,通過率就可以達到百分之八十五以上。這把主播的話轉化成文字,需要把主播說話時非??谡Z化的部分去掉,89906多模態(tài)大模型發(fā)展規(guī)劃建議速完善國產基礎軟硬件體系,以及加強AIforScience等人工智能6.1打造工業(yè)化范式的多模態(tài)大模型生態(tài)91薦引擎、AI助理等多模態(tài)應用服務,讓多模態(tài)預訓練模型實現(xiàn)研發(fā)6.2持續(xù)完善國產基礎軟硬件支撐體系但經(jīng)過幾年努力,像華為的昇思MindSpore,百度的飛槳PaddlePaddle以及寒武紀芯片等都形成了自有生態(tài),實現(xiàn)了從“不可用”92練和推理套件研發(fā),推動國產AI計算設施與行業(yè)已有業(yè)務系統(tǒng)實現(xiàn)6.4健全人工智能產業(yè)應用政策標準,大力培養(yǎng)復合型人才93[1]MatthewE.Peters,MarkNeumann,MohitIyyer,MattGardner,ChristopherClark,KentonLee,LukeZettlemoyer.Deepcontextualizedwordrepresentations.NAACL2018[2]AlecRadford,KarthikNarasimhan,TimSalimans,andIlyaSutskever,ImprovingLanguageUnderstandingbyGenerativePre-Training.201894[3]JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding.arXiv:1810.04805v2[4]AlecRadford,JeffreyWu,RewonChild,DavidLuan,DarioAmodei,andIlyaSutskever.LanguageModelsareUnsupervisedMultitaskLearners.2019.[5]TomB.Brown,BenjaminMann,etal,LanguageModelsareFew-ShotLearners.arXiv:2005.14165[6]ZhilinYang,ZihangDai,YimingYang,JaimeCarbonell,RuslanSalakhutdinov,QuocV.Le.XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding.NeurIPS2019[7]KaitaoSong,XuTan,TaoQin,JianfengLu,andTie-YanLiu.MASS:maskedsequencetosequencepre-trainingforlanguagegeneration.ICML2019.[8]MikeLewis,YinhanLiu,NamanGoyal,MarjanGhazvininejad,AbdelrahmanMohamed,OmerLevy,VeselinStoyanov,andLukeZettlemoyer.BART:denoisingsequence-to-sequencepre-trainingfornaturallanguagegeneration,translation,andcomprehension.arXiv:1910.13461,2019.[9]LiDong,NanYang,WenhuiWang,FuruWei,XiaodongLiu,YuWang,JianfengGao,MingZhou,andHsiao-WuenHon.Unifiedlanguagemodelpre-trainingfornaturallanguageunderstandingandgeneration.InNeurIPS,pages13042–13054,2019.[10]YinhanLiu,MyleOtt,NamanGoyal,JingfeiDu,MandarJoshi,DanqiChen,OmerLevy,MikeLewis,LukeZettlemoyer,andVeselinStoyanov.RoBERTa:ArobustlyoptimizedBERTpretrainingapproach.arXivpreprintarXiv:1907.11692,2019.[11]JunqiuWei,XiaozheRen,XiaoguangLi,WenyongHuang,YiLiao,YashengWang,JiashuLin,XinJiang,XiaoChen,andQunLiu.NEZHA:Neuralcontextualizedrepresentationforchineselanguageunderstanding.arXivpreprintarXiv:1909.00204,2019.[12]ZhengyanZhang,XuHan,ZhiyuanLiu,XinJiang,MaosongSun,andQunLiu.ERNIE:enhancedlanguagerepresentationwithinformativeentities.InACL,2019.[13]YuSun,ShuohuanWang,YukunLi,ShikunFeng,HaoTian,HuaWu,andHaifengWang.ERNIE2.0:Acontinualpretrainingframeworkforlanguageunderstanding.InAAAI,2019.95[14]ShizheDiao,JiaxinBai,YanSong,TongZhang,andYonggangWang.ZEN:pre-trainingchinesetextencoderenhancedbyn-gramrepresentations.arXivpreprintarXiv:1911.00720,2019.[15]YimingCui,WanxiangChe,TingLiu,BingQin,ShijinWang,GuopingHu.RevisitingPre-TrainedModelsforChineseNaturalLanguageProcessing.EMNLP2020[16]WeijieLiu,PengZhou,ZheZhao,ZhiruoWang,QiJu,HaotangDeng,andPingWang.K-BERT:Enablinglanguagerepresentationwithknowledgegraph.InAAAI,2019.[17]SiqiBao,HuangHe,FanWang,HuaWu,HaifengWang,WenquanWu,ZhihuaWu,ZhenGuo,HuaLu,XinxianHuang,XinTian,XinchaoXu,YingzhanLin,ZhengyuNiu.PLATO-XL:ExploringtheLarge-scalePre-trainingofDialogueGeneration.arXiv:2109.09519[18]VictorSanh,LysandreDebut,JulienChaumond,ThomasWolf.DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter.NeurIPS2019[19]ZhiqingSun,HongkunYu,XiaodanSong,RenjieLiu,YimingYang,DennyZhou.MobileBERT:aCompactTask-AgnosticBERTforResource-LimitedDevices.ACL2020[20]ZifengWang,ZizhaoZhang,Chen-YuLee,HanZhang,RuoxiSun,XiaoqiRen,GuolongSu,VincentPerot,JenniferDy,TomasPfister.LearningtoPromptforContinualLearning.arXiv:2112.08654v1[21]RuiqiZhong,KristyLee,ZhengZhang,DanKlein.AdaptingLanguageModelsforZero-shotLearningbyMeta-tuningonDatasetandPromptCollections.EMNLP2021[22]BenjaminNewman,PrafullaKumarChoubey,NazneenRajani.P-Adapters:RobustlyExtractingFactualInformationfromLanguageModelswithDiversePrompts.arXiv:2110.07280v1[23]JingL,TianY.Self-supervisedvisualfeaturelearningwithdeepneuralnetworks:Asurvey[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2020.[24]ZhangR,IsolaP,EfrosAA.Colorfulimagecolorization[C].Europeanconferenceoncomputervision.Springer,Cham,2016:649-666.[25]CaronM,BojanowskiP,JoulinA,etal.Deepclusteringforunsupervisedlearningofvisualfeatures[C].ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).2018:132-149.96[26]LedigC,TheisL,HuszárF,etal.Photo-realisticsingleimagesuper-resolutionusingagenerativeadversarialnetwork[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2017:4681-4690.[27]PathakD,KrahenbuhlP,DonahueJ,etal.Contextencoders:Featurelearningbyinpainting[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:2536-2544.[28]HeK,ChenX,XieS,etal.Maskedautoencodersarescalablevisionlearners[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition,2021.[29]BaoH,DongL,WeiF.BEiT:BERTPre-TrainingofImageTransformers[J].arXivpreprintarXiv:2106.08254,2021.[30]XieZ,ZhangZ,CaoY,etal.SimMIM:ASimpleFrameworkforMaskedImageModeling[J].arXivpreprintarXiv:2111.09886,2021.[31]HeK,FanH,WuY,etal.Momentumcontrastforunsupervisedvisualrepresentationlearning[C].ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:9729-9738.[32]ChenX,FanH,GirshickR,etal.Improvedbaselineswithmomentumcontrastivelearning[J].arXivpreprintarXiv:2003.04297,2020.[33]ChenX,XieS,HeK.Anempiricalstudyoftrainingself-supervisedvisionTransformers[J].arXivpreprintarXiv:2104.02057,2021.[34]ChenT,KornblithS,SwerskyK,etal.Bigself-supervisedmodelsarestrongsemi-supervisedlearners[J].arXivpreprintarXiv:2006.10029,2020.[35]ChenT,KornblithS,NorouziM,etal.Asimpleframeworkforcontrastivelearningofvisualrepresentations[C].Internationalconferenceonmachinelearning.PMLR,2020:1597-1607.[36]ChenT,KornblithS,SwerskyK,etal.Bigself-supervisedmodelsarestrongsemi-supervisedlearners[J].arXivpreprintarXiv:2006.10029,2020.[37]GrillJB,StrubF,AltchéF,etal.Bootstrapyourownlatent:Anewapproachtoself-supervisedlearning[C].ConferenceandWorkshoponNeuralInformationProcessingSystems,2020.[38]DoerschC,ZissermanA.Multi-taskself-supervisedvisuallearning[C].ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017:2051-2060.97[39]LiZ,ChenZ,YangF,etal.MST:MaskedSelf-SupervisedTransformerforVisualRepresentation[C].ConferenceandWorkshoponNeuralInformationProcessingSystems,2021.[40]ZhouJ,WeiC,WangH,etal.iBOT:ImageBERTPre-TrainingwithOnlineTokenizer[J].arXivpreprintarXiv:2111.07832,2021.[41]ZhaiX,KolesnikovA,HoulsbyN,etal.ScalingvisionTransformers[J].arXivpreprintarXiv:2106.04560,2021.[42]AbnarS,DehghaniM,NeyshaburB,etal.Exploringthelimitsoflargescalepre-training[J].arXivpreprintarXiv:2110.02095,2021.[43]FedusW,ZophB,ShazeerN.SwitchTransformers:Scalingtotrillionparametermodelswithsimpleandefficientsparsity[J].arXivpreprintarXiv:2101.03961,2021[44]RuizCR,PuigcerverJ,MustafaB,etal.ScalingVisionwithSparseMixtureofExperts[C].Thirty-FifthConferenceonNeuralInformationProcessingSystems.2021.[45]LouY,XueF,ZhengZ,etal.Sparse-mlp:Afully-mlparchitecturewithconditionalcomputation[J].arXivpreprintarXiv:2109.02008,2021.[46]Chung,Yu-AnandGlass,James.Generativepre-trainingforspeechwithautoregressivepredictivecoding.ICASSP2020[47]Yu-AnChung,HaoTang,andJamesGlass.Vector-QuantizedAutoregressivePredictiveCoding.Proc.Interspeech2020,pp.3760-3764[48]AndyT.Liu,Shu-wenYang,Po-HanChi,Po-chunHsu,Hung-yiLee.Mockingjay:UnsupervisedSpeechRepresentationLearningwithDeepBidirectionalTransformerEncoders.ICASSP2020[49]ShaoshiLing,YuzongLiu,JulianSalazar,KatrinKirchhoff.DeepContextualizedAcousticRepresentationsForSemi-SupervisedSpeechRecognition.ICASSP2020[50]ShaoshiLing,YuzongLiu.DeCoAR2.0:DeepContextualizedAcousticRepresentationswithVectorQuantization.ICASSP2021[51]Liu,AlexanderandChung,Yu-AnandGlass,James.Non-AutoregressivePredictiveCodingforLearningSpeechRepresentationsfromLocalDependencies.arXivpreprintarXiv:2011.00406[52]Oord,Aaronvanden,YazheLi,andOriolVinyals.Representationlearningwithcontrastivepredictivecoding.arXivpreprintarXiv:1807.03748,2018.98[53]SteffenSchneider,AlexeiBaevski,RonanCollobert,MichaelAuli.Wav2Vec:UnsupervisedPre-trainingforSpeechRecognition.Interspeech2019[54]AlexeiBaevski,SteffenSchneider,MichaelAuli.VQ-Wav2Vec:Self-SupervisedLearningofDiscreteSpeechRepresentations.ICLR2020[55]AlexeiBaevski,HenryZhou,AbdelrahmanMohamed,MichaelAuli.Wav2Vec2.0:AFrameworkforSelf-SupervisedLearningofSpeechRepresentations.NeurIPS2020[56]Wei-NingHsu,BenjaminBolte,Yao-HungHubertTsai,KushalLakhotia,RuslanSalakhutdinov,AbdelrahmanMohamed.HuBERT:Self-SupervisedSpeechRepresentationLearningbyMaskedPredictionofHiddenUnits.ICASSP2021[57]Yu-AnChung,YuZhang,WeiHan,Chung-ChengChiu,JamesQin,RuomingPang,YonghuiWu.W2v-BERT:CombiningContrastiveLearningandMaskedLanguageModelingforSelf-SupervisedSpeechPre-Training.arXiv:2108.06209[58]SantiagoPascual,MircoRavanelli,JoanSerrà,AntonioBonafonte,YoshuaBengio.LearningProblem-AgnosticSpeechRepresentationsfromMultipleSelf-SupervisedTasks.Interspeech2019[59]JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2019.BERT:Pre-trainingofdeepbidirectionalTransformersforlanguageunderstanding.InProc.ofNAACL2019.[60]SuW,ZhuX,CaoY,etal.VL-BERT:Pre-trainingofGenericVisual-LinguisticRepresentations[J].2019.[61]SunC,MyersA,VondrickC,etal.Videobert:Ajointmodelforvideoandlanguagerepresentationlearning[C].ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2019:7464-7473.[62]ChenYC,LiL,YuL,etal.Uniter:Universalimage-textrepresentationlearning[C].Europeanconferenceoncomputervision.Springer,Cham,2020:104-120.[63]LuJ,BatraD,ParikhD,etal.Vilbert:Pretrainingtask-agnosticvisiolinguisticrepresentationsforvision-and-languagetasks[J].arXivpreprintarXiv:1908.02265,2019.[64]TanH,BansalM.Lxmert:Learningcross-modalityencoderrepresentationsfromTransformers[J].arXivpreprintarXiv:1908.07490,2019.[65]AlecR,JongWK,ChrisH,etal.CLIP:ConnectingTextandImages.Technicalreport,OpenAI.99[66]RadfordA,WuJ,AmodeiD,etal.Betterlanguagemodelsandtheirimplications[J].OpenAIBloghttps://openai.com/blog/better-language-models,2019,1:2.[67]BrownTB,MannB,RyderN,etal.Languagemodelsarefew-shotlearners[J].arXivpreprintarXiv:2005.14165,2020.[68]RameshA,PavlovM,GohG,etal.Zero-shottext-to-imagegeneration[J].arXivpreprintarXiv:2102.12092,2021.[69]DingM,YangZ,HongW,etal.CogView:MasteringText-to-ImageGenerationviaTransformers[J].arXivpreprintarXiv:2105.13290,2021.[70]ChoJ,LeiJ,TanH,etal.Unifyingvision-and-languagetasksviatextgeneration[J].arXivpreprintarXiv:2102.02779,2021.[71]XuH,YanM,LiC,etal.E2E-VLP:End-to-EndVision-LanguagePre-trainingEnhancedbyVisualLearning[J].arXivpreprintarXiv:2106.01804,2021.[72]LinJ,MenR,YangA,etal.M6:Achinesemultimodalpretrainer[J].arXivpreprintarXiv:2103.00823,2021.[73]SunY,WangS,LiY,etal.Ernie:Enhancedrepresentationthroughknowledgeintegration[J].arXivpreprintarXiv:1904.09223,2019.[74]ZhengyanZhang,XuHan,ZhiyuanLiu,XinJiang,MaosongSun,QunLiu.2019.ERNIE:EnhancedLanguageRepresentationwithInformativeEntities.InProc.OfACL2019.[75]LiX,YinX,LiC,etal.Oscar:Object-semanticsalignedpre-trainingforvision-languagetasks[C].EuropeanConferenceonComputerVision.Springer,Cham,2020:121-137.[76]ZhuL,YangY.Actbert:Learningglobal-localvideo-textrepresentations[C].ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2020:8746-8755.[77]P.Goyaletal.,“Accurate,LargeMinibatchSGD:TrainingImageNetin1Hour,”*arXiv:1706.02677,2021[78]D.Park,J.Sohl-Dickstein,Q.Le,andS.Smith,“TheEffectofNetworkWidthonStochasticGradientDescentandGeneralization:AnEmpiricalStudy,”inICML,2019[79]F.Niu,B.Recht,C.Re,andS.J.Wright,“HOGWILD!ALock-FreeApproachtoParallelizingStochasticGradientDescent,”,arXiv:1106.5730,2011[80]L.Nguyen,P.H.Nguyen,M.Dijk,P.Richtarik,K.Scheinb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論