版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
緒
論
全套可編輯PPT課件
o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排22
目錄全套可編輯PPT課件
延伸閱讀:迎接大模型時(shí)代:大模型發(fā)展簡史及攻略0引言作為人工智能全球頂級(jí)專家,陸奇自今年以來,以“大模型帶來的變革和機(jī)會(huì)”為主題,先后在上海、深圳、北京等城市發(fā)表了多場演講,進(jìn)一步引發(fā)了業(yè)界對(duì)大模型的關(guān)注和思考。本文基于對(duì)陸奇演講內(nèi)容的理解,對(duì)大模型的劃時(shí)代意義、發(fā)展過程和分類進(jìn)行了體系化的梳理,希望能幫助讀者更全面、準(zhǔn)確地認(rèn)識(shí)大模型。同時(shí)嘗試梳理并回答大模型如何打造,如何評(píng)價(jià)、如何實(shí)現(xiàn)商業(yè)變現(xiàn)等問題,希望能給讀者一些啟發(fā)。1大模型正在開啟一個(gè)新的時(shí)代大模型(LLM)狹義上指基于深度學(xué)習(xí)算法進(jìn)行訓(xùn)練的自然語言處理(NLP)模型,主要應(yīng)用于自然語言理解和生成等領(lǐng)域,廣義上還包括機(jī)器視覺(CV)大模型、多模態(tài)大模型和科學(xué)計(jì)算大模型等。ChatGPT的火爆吸引了全世界對(duì)大模型的關(guān)注,比爾·蓋茨表示,ChatGPT的誕生意義不亞于互聯(lián)網(wǎng)的出現(xiàn);陸奇在報(bào)告中稱之為“ChatGPT時(shí)刻”。1.1從云時(shí)代向大模型時(shí)代進(jìn)化信息社會(huì)先后經(jīng)歷了計(jì)算機(jī)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和云計(jì)算等重要階段;ChatGPT及一大批類似大模型的發(fā)展,標(biāo)志著信息社會(huì)進(jìn)入了大模型主導(dǎo)的新階段。根據(jù)陸奇提出的“信息-模型-行動(dòng)”系統(tǒng)分析范式框架,計(jì)算機(jī)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和云計(jì)算這四個(gè)標(biāo)志性技術(shù)都是實(shí)現(xiàn)了信息獲取的邊際成本無限趨近零。大模型熱潮標(biāo)志著新拐點(diǎn)即將到來,社會(huì)各界獲取模型的總成本將逐漸趨近固定成本,預(yù)示著模型將無處不在,萬物都將成為它的載體。未來,自動(dòng)化行動(dòng)將成為新的拐點(diǎn),人在物理空間內(nèi)“行動(dòng)”的代價(jià)轉(zhuǎn)向固定,人將與數(shù)字化技術(shù)構(gòu)建出一個(gè)全新的智能系統(tǒng),實(shí)現(xiàn)信息、模型和行動(dòng)的無縫銜接。這意味著人不再通過獲取信息,利用人腦分析,自己去行動(dòng),而是智能系統(tǒng)自動(dòng)獲取低成本信息(數(shù)據(jù)),利用大模型,形成指令驅(qū)動(dòng)各類系統(tǒng)(包括機(jī)器人)采取行動(dòng),從而對(duì)整個(gè)社會(huì)產(chǎn)生深遠(yuǎn)的影響和沖擊,各類數(shù)字化系統(tǒng)也將基于大模型形成互聯(lián)互通。1.2大模型時(shí)代的三大革命性變化大模型推動(dòng)弱人工智能向通用人工智能(AGI)躍升。2023年2月,OpenAI在ChatGPT成功的基礎(chǔ)上,發(fā)布了通用人工智能路線圖,建議逐步向AGI普及的世界過渡,讓大眾、政策制定者和研究機(jī)構(gòu)有時(shí)間了解AGI技術(shù)帶來的改變。谷歌也指出未來數(shù)年AGI將會(huì)得到普及,各種應(yīng)用領(lǐng)域中的智能系統(tǒng)將具備與人類認(rèn)知能力相持平的智力水平,能夠勝任多種復(fù)雜任務(wù)。大模型推動(dòng)生產(chǎn)力從算力向機(jī)器智力躍升。生產(chǎn)力的變革是推動(dòng)人類社會(huì)進(jìn)步的根本動(dòng)力,從原始社會(huì)、農(nóng)業(yè)社會(huì)、工業(yè)社會(huì)到信息社會(huì),背后是人力、畜力、電力到算力的躍升。隨著大模型成為新的物種,機(jī)器智力將成為新的主流生產(chǎn)力。機(jī)器智力是智能算力與人類知識(shí)的擴(kuò)展、集成和融合,大模型是機(jī)器智力的載體。隨著大模型的不斷進(jìn)化和普及,其將成為經(jīng)濟(jì)社會(huì)的主流生產(chǎn)工具,重塑經(jīng)濟(jì)社會(huì)的生產(chǎn)方式,全面降低生產(chǎn)成本,提升經(jīng)濟(jì)效益。大模型推動(dòng)數(shù)字社會(huì)向智能社會(huì)躍升。首先是AI特別是AGI產(chǎn)業(yè)高度發(fā)展,帶動(dòng)智能算力相關(guān)基礎(chǔ)設(shè)施投資,并基于大模型衍生出多種新業(yè)態(tài)和新市場,成為經(jīng)濟(jì)增長的核心引擎。以智算中心為例,一個(gè)單位的智算中心投資,可帶動(dòng)AI核心產(chǎn)業(yè)增長約2.9-3.4倍、帶動(dòng)相關(guān)產(chǎn)業(yè)增長約36-42倍。GPT等各種大模型是人工智能時(shí)代的“操作系統(tǒng)”,將重構(gòu)、重寫數(shù)字化應(yīng)用。其次是有了AGI的加持,人類的能力和活動(dòng)范圍都將得到大幅提升,進(jìn)一步從重復(fù)性的腦力勞動(dòng)中解放出來。但是,需要注意到,大模型的普及也會(huì)給現(xiàn)有的教育、就業(yè)、輿論甚至全球的政治格局帶來沖擊,是需要政府和產(chǎn)業(yè)界共同研究的問題。2大模型發(fā)展的三個(gè)階段和三次飛躍大模型發(fā)展主要經(jīng)歷了三個(gè)階段,分別是萌芽期、探索沉淀期和迅猛發(fā)展期(如圖1所示)。圖1AI大模型發(fā)展的三個(gè)階段2.1萌芽期(1950年-2005年):以CNN為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型階段1956年,從計(jì)算機(jī)專家約翰·麥卡錫提出“人工智能”概念開始,AI發(fā)展由最開始基于小規(guī)模專家知識(shí)逐步發(fā)展為基于機(jī)器學(xué)習(xí)。1980年,卷積神經(jīng)網(wǎng)絡(luò)的雛形CNN誕生。1998年,現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)LeNet-5誕生,機(jī)器學(xué)習(xí)方法由早期基于淺層機(jī)器學(xué)習(xí)的模型,變?yōu)榱嘶谏疃葘W(xué)習(xí)的模型,為自然語言生成、計(jì)算機(jī)視覺等領(lǐng)域的深入研究奠定了基礎(chǔ),對(duì)后續(xù)深度學(xué)習(xí)框架的迭代及大模型發(fā)展具有開創(chuàng)性的意義。2.2探索沉淀期(2006年-2019年):以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)模型階段2013年,自然語言處理模型Word2Vec誕生,首次提出將單詞轉(zhuǎn)換為向量的“詞向量模型”,以便計(jì)算機(jī)更好地理解和處理文本數(shù)據(jù)。2014年,被譽(yù)為21世紀(jì)最強(qiáng)大算法模型之一的GAN(對(duì)抗式生成網(wǎng)絡(luò))誕生,標(biāo)志著深度學(xué)習(xí)進(jìn)入了生成模型研究的新階段。2017年,Google顛覆性地提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,OpenAI和Google分別發(fā)布了GPT-1與BERT大模型,意味著預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。在探索期,以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)架構(gòu),奠定了大模型的算法架構(gòu)基礎(chǔ),使大模型技術(shù)的性能得到了顯著提升。2.3迅猛發(fā)展期(2020年-至今):以GPT為代表的預(yù)訓(xùn)練大模型階段2020年,OpenAI公司推出了GPT-3,模型參數(shù)規(guī)模達(dá)到了1750億,成為當(dāng)時(shí)最大的語言模型,并且在零樣本學(xué)習(xí)任務(wù)上實(shí)現(xiàn)了巨大性能提升。隨后,更多策略如基于人類反饋的強(qiáng)化學(xué)習(xí)(RHLF)、代碼預(yù)訓(xùn)練、指令微調(diào)等開始出現(xiàn),被用于進(jìn)一步提高推理能力和任務(wù)泛化。2022年11月,搭載了GPT3.5的ChatGPT橫空出世,憑借逼真的自然語言交互與多場景內(nèi)容生成能力,迅速引爆互聯(lián)網(wǎng)。2023年3月,最新發(fā)布的超大規(guī)模多模態(tài)預(yù)訓(xùn)練大模型——GPT-4,具備了多模態(tài)理解與多類型內(nèi)容生成能力。在迅猛發(fā)展期,大數(shù)據(jù)、大算力和大算法完美結(jié)合,大幅提升了大模型的預(yù)訓(xùn)練和生成能力以及多模態(tài)多場景應(yīng)用能力。如ChatGPT的巨大成功,就是在微軟Azure強(qiáng)大的算力以及wiki等海量數(shù)據(jù)支持下,在Transformer架構(gòu)基礎(chǔ)上,堅(jiān)持GPT模型及人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行精調(diào)的策略下取得的。3不斷進(jìn)化的大模型家族大模型作為新物種,一直在快速進(jìn)化,目前已經(jīng)初步形成包括各參數(shù)規(guī)模、各種技術(shù)架構(gòu)、各種模態(tài)、各種場景的大模型家族(如圖2所示)。圖2大模型譜系圖從參數(shù)規(guī)模上看,大模型經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段。據(jù)統(tǒng)計(jì),每年參數(shù)規(guī)模至少提升10倍,實(shí)現(xiàn)了從億級(jí)到百萬億級(jí)的突破。目前千億級(jí)參數(shù)規(guī)模的大模型成為主流。從技術(shù)架構(gòu)上看,Transformer架構(gòu)是當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ),其上形成了GPT和BERT兩條主要的技術(shù)路線,其中BERT最有名的落地項(xiàng)目是谷歌的AlphaGo。在GPT3.0發(fā)布后,GPT逐漸成為大模型的主流路線。綜合來看,當(dāng)前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取GPT模式,如百度文心一言,阿里發(fā)布的通義千問等。從模態(tài)上來看,大模型可分為自然語言處理大模型,CV大模型、科學(xué)計(jì)算大模型等。大模型支持的模態(tài)數(shù)量更加多樣,從支持文本、圖片、圖像、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。從應(yīng)用領(lǐng)域來講,大模型可分為通用大模型和行業(yè)大模型兩種。通用大模型是具有強(qiáng)大泛化能力,可在不進(jìn)行微調(diào)或少量微調(diào)的情況下完成多場景任務(wù),相當(dāng)于AI完成了“通識(shí)教育”,ChatGPT、華為的盤古都是通用大模型。行業(yè)大模型則是利用行業(yè)知識(shí)對(duì)大模型進(jìn)行微調(diào),讓AI完成“專業(yè)教育”,以滿足在能源、金融、制造、傳媒等不同領(lǐng)域的需求,如金融領(lǐng)域的BloombergGPT、法律領(lǐng)域的LawGPT_zh,以及百度基于文心大模型推出的航天-百度文心、辭海-百度文心等。4大模型開發(fā)之道目前大模型的開發(fā)主要有兩種路徑,一種是從頭構(gòu)建完整大模型;另一種是在開源的通用大模型之上調(diào)優(yōu)。前者所需數(shù)據(jù)、算力、時(shí)間投入較大,但大模型的性能更為突出。后者模型的參數(shù)和能力受限于開源模型,但成本較低,可以快速形成所需的大模型。4.1路徑一:從頭構(gòu)建完整大模型構(gòu)建完整大模型一般分為四個(gè)步驟(如圖3所示):圖3完整大模型的主要開發(fā)步驟首先是訓(xùn)練構(gòu)建基座模型。基座模型已經(jīng)初步具備良好的知識(shí)框架和認(rèn)知能力,但需要復(fù)雜指令的準(zhǔn)確引導(dǎo)才可以生成正確內(nèi)容,因而一般不能直接用于作為日常交互。從模型算法角度看,目前主流的GPT類基座模型均基于Transformer的decoder思路設(shè)計(jì)。從數(shù)據(jù)角度看,基座模型是實(shí)現(xiàn)涌現(xiàn)能力(參數(shù)達(dá)到一定規(guī)模時(shí)出現(xiàn)意想不到的能力)的基礎(chǔ),訓(xùn)練需要用到大量的數(shù)據(jù),GPT3.0用到了45TB的文本語料,GPT4中還增加了圖像數(shù)據(jù)等。從算力資源角度看,訓(xùn)練一個(gè)基座模型需要大量的算力和較長周期,為了提高效率,ChatGPT用到了近萬張英偉達(dá)A100的GPU卡?;P涂梢岳斫鉃樾『⒁呀?jīng)生硬地背了大量古詩,但還不會(huì)熟練運(yùn)用。你跟他說“舉頭望明月”,他能對(duì)出“低頭思故鄉(xiāng)”。但你讓他背一首“思鄉(xiāng)”的詩,他就不會(huì)了。其次是策略精調(diào)。目的是讓模型具備適用性,能與人類正常交流,即讓基座模型理解用戶想問什么,以及自己答的對(duì)不對(duì)。這個(gè)環(huán)節(jié)主要通過高質(zhì)量的人工標(biāo)注<指令,答案>(即prompt工程)優(yōu)化模型。ChatGPT的標(biāo)注數(shù)據(jù)集主要由一個(gè)30-50名OpenAI員工組成的團(tuán)隊(duì)和從第三方網(wǎng)站雇傭的50-100名標(biāo)注員共同完成。這個(gè)過程可以理解為老師給學(xué)生上課,講解很多詩句的含義。引導(dǎo)他看到“孤獨(dú)(prompt)”可以寫“揀盡寒枝不肯棲,寂寞沙洲冷(答案)”,看到“豪情(prompt)”,可以寫“愿將腰下劍,直為斬樓蘭(答案)”第三步是訓(xùn)練一個(gè)獨(dú)立于基座模型的判別模型,用來判斷模型生成結(jié)果的質(zhì)量,為下一步的強(qiáng)化學(xué)習(xí)做準(zhǔn)備。由專門的標(biāo)注人員對(duì)模型生成的結(jié)果按照相關(guān)性、富含信息性、有害信息等諸多標(biāo)準(zhǔn)進(jìn)行排序,然后通過判別模型學(xué)習(xí)標(biāo)注好排名的數(shù)據(jù),形成對(duì)生成結(jié)果質(zhì)量判別能力。這一步是為小朋友培養(yǎng)一個(gè)伴讀。通過給定一組題目(prompt),讓小朋友為每一個(gè)題目寫多篇古詩。由老師為每一首詩打分(結(jié)果標(biāo)注),然后將結(jié)果告訴伴讀。伴讀需要學(xué)會(huì)判斷哪首詩更符合題目,寫的更有意境。最后一步是利用獎(jiǎng)勵(lì)機(jī)制優(yōu)化基座模型,完成模型的領(lǐng)域泛化能力。本階段無需人工標(biāo)注數(shù)據(jù),而是利用強(qiáng)化學(xué)習(xí)技術(shù),根據(jù)上一階段判別模型的打分結(jié)果來更新內(nèi)容生成模型參數(shù),從而提升內(nèi)容生成模型的回答質(zhì)量。(第三和最后一步相當(dāng)于大人去糾正小孩對(duì)話,告訴孩子哪句話是對(duì)的,哪句話不能這么回答,比如“爸爸好不好?”,回答“爸爸是壞蛋”就要進(jìn)行“懲罰”,回答“爸爸很好,我很喜歡爸爸”就比較符合要求。類似的做法,實(shí)際的工作比這個(gè)要復(fù)雜的多,需要大量的專家投入)。這一步則是讓伴讀提升小朋友的水平,而老師則可以休息了。伴讀告訴小朋友,如果用“未若柳絮因風(fēng)起”描寫雪則可以有糖葫蘆吃,如果用“撒鹽空中差可擬”描寫則沒有糖吃。通過反復(fù)練習(xí),最后就可以培養(yǎng)出一位“能詩會(huì)賦”的高手(成品大模型)。4.2路徑二:基于開源通用大模型的調(diào)優(yōu)基于開源通用大模型進(jìn)行調(diào)優(yōu)是低成本的選擇,也是大模型下游玩家最常見的選擇,利用開源大模型,玩家可在1張高性能顯卡中,約5小時(shí)就可完成包含200萬條數(shù)據(jù)的參數(shù)微調(diào)。參數(shù)高效微調(diào)方法是目前業(yè)界主流的調(diào)優(yōu)方式,在保持原有大模型的整體參數(shù)或絕大部分參數(shù)不變的情況下,僅通過增加或改變參數(shù)的方式獲得更好的模型輸出,影響的參數(shù)量可僅為大模型全量參數(shù)的0.1%以下,典型代表為微軟提出的LoRA技術(shù)。5大模型評(píng)測之法短短幾個(gè)月,國內(nèi)外AI大模型數(shù)量激增,良莠不齊,尤其如何對(duì)開源大模型進(jìn)行評(píng)估成為新的課題,對(duì)于開源大模型選擇、促進(jìn)大模型的發(fā)展具有非常重要的價(jià)值。未來,對(duì)于2B客戶來說,需要從諸多行業(yè)大模型選擇適合自己需要的大模型,第三方獨(dú)立評(píng)估結(jié)果具有重要的參考價(jià)值。目前業(yè)界還沒有形成統(tǒng)一的權(quán)威第三方評(píng)測方法,主要的評(píng)測手段有兩類:一類是深度學(xué)習(xí)常用的語言理解數(shù)據(jù)集與評(píng)測指標(biāo),即通過運(yùn)行標(biāo)準(zhǔn)的數(shù)據(jù)集,來評(píng)測大模型的深度學(xué)習(xí)性能,常用的指標(biāo)有準(zhǔn)確率、召回率等。Meta、谷歌和華盛頓大學(xué)等合作推出的SuperGLUE(超級(jí)通用語言理解評(píng)估)包含7個(gè)任務(wù)的集合,能夠測試大模型在回答問題和常識(shí)推理等多方面的能力。另一類是面向大模型的文本生成、語言理解、知識(shí)問答等能力,設(shè)計(jì)專門評(píng)估指標(biāo)體系,然后通過提問(prompt)的方式,根據(jù)生成的結(jié)果對(duì)模型進(jìn)行評(píng)價(jià)。具體操作上又分為人工評(píng)測和裁判大模型評(píng)測兩種方式,人工評(píng)測由語言學(xué)家和領(lǐng)域?qū)<腋鶕?jù)主觀判斷來評(píng)價(jià)模型各個(gè)指標(biāo)的表現(xiàn),如OpenAI等機(jī)構(gòu)邀請(qǐng)研究人員評(píng)測GPT系列模型;科大訊飛牽頭設(shè)計(jì)了通用認(rèn)知大模型評(píng)測體系,從文本生成、語言理解、知識(shí)問答、邏輯推理、數(shù)學(xué)能力、代碼能力和多模態(tài)能力這7個(gè)維度481個(gè)細(xì)分任務(wù)類型進(jìn)行評(píng)估。裁判大模型評(píng)測是指用一個(gè)較強(qiáng)大的語言模型來評(píng)測其他語言模型。例如,用GPT-4模型作為“老師”,通過“老師”出題及評(píng)判其他模型的答案來實(shí)現(xiàn)機(jī)器評(píng)測。北大和西湖大學(xué)開源的裁判大模型pandaLM也實(shí)現(xiàn)了自動(dòng)化、保護(hù)隱私和低成本的評(píng)估方式。上述三種方式各有優(yōu)缺點(diǎn),語言理解數(shù)據(jù)集適用于初步評(píng)估大模型的基本性能,如翻譯質(zhì)量、語言表達(dá)能力等;人工評(píng)測適用于評(píng)估大模型的高層語言表達(dá)能力、情感理解力和交互性能等;機(jī)器裁判評(píng)測適用于對(duì)大規(guī)模數(shù)據(jù)和模型進(jìn)行快速評(píng)測,評(píng)估大模型的穩(wěn)定性和一致性。6大模型商用之路6.1模型即服務(wù)(MaaS)成為確定的商業(yè)模式與互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng)發(fā)展初期沒有成熟的商業(yè)模式相比,大模型自帶光環(huán),迅速形成了MaaS模式。具體來看,應(yīng)用場景、產(chǎn)品形態(tài)及盈利模式主要有以下幾類:A.互聯(lián)網(wǎng)應(yīng)用或SaaS應(yīng)用:直接向終端用戶提供大模型SaaS應(yīng)用產(chǎn)品,通過訂閱模式、按生成內(nèi)容的數(shù)量或質(zhì)量收費(fèi)、按比例分成等模式實(shí)現(xiàn)盈利,例如Midjourney提供每月10美元和30美元兩種會(huì)員收費(fèi)標(biāo)準(zhǔn);ChatGPT對(duì)用戶免費(fèi),但ChatGPTplus收費(fèi)20美元/月。B.“插件”(Plugin):大模型可集成加載第三方應(yīng)用產(chǎn)品插件,大大拓展了大模型的應(yīng)用場景,吸引更多用戶,例如ChatGPTPlugins,大量餐飲、商旅網(wǎng)站和App通過插件加載集成到ChatGPT,增強(qiáng)了ChatGPT的功能和體驗(yàn),用戶不是簡單地聊天,而是可以一站式實(shí)現(xiàn)綜合任務(wù),例如出差或旅游,大模型可以幫忙訂機(jī)票,訂酒店,訂飯店和租車等等。C.自有應(yīng)用重構(gòu):將自研的大模型能力直接內(nèi)置嵌入自有應(yīng)用,增強(qiáng)智能輔助和高效交互,為自有應(yīng)用引流增加收益,例如微軟將GPT-4深度集成到Office、Bing等系列產(chǎn)品,功能要強(qiáng)大的多,例如搜索可以對(duì)話式獲取更聰明精確和綜合的答案,office可以為輔助客戶撰寫PPT和文檔,只需說出需求,ChatGPT即可快速生成一份模板化文檔,大差不差,稍作修改即可使用,大大提升了工作效率。D.開放API:大模型平臺(tái)開放API,為開發(fā)者提供可訪問和調(diào)用的大模型能力,按照數(shù)據(jù)請(qǐng)求量和實(shí)際計(jì)算量計(jì)費(fèi),開發(fā)者可以根據(jù)需要開發(fā)定制功能和應(yīng)用,國內(nèi)一些ChatGPT小程序和web應(yīng)用就是基于ChatGPT的API外包一層UI提供的,國內(nèi)商湯“日日新”大模型也為用戶開放API接口;E.大模型云服務(wù):基于大模型和配套算力基礎(chǔ)設(shè)施提供全套模型服務(wù),如為客戶提供自動(dòng)化數(shù)據(jù)標(biāo)注、模型訓(xùn)練、提供微調(diào)工具等以及增量支撐服務(wù),按照數(shù)據(jù)請(qǐng)求量和實(shí)際計(jì)算量計(jì)費(fèi),例如AzureOpenAI服務(wù),客戶可開發(fā)訓(xùn)練自己的大模型,未來不提供大模型框架、工具和數(shù)據(jù)集處理能力的云將很難吸引客戶“上云”;F.解決方案:提供定制化或場景化的行業(yè)應(yīng)用解決方案,按具體項(xiàng)目實(shí)施情況收費(fèi),例如科大訊飛智能客服解決方案,這種按項(xiàng)目和解決方案部署AI和大模型應(yīng)用適用于行業(yè)大客戶,投入成本較高。A、B、D可依托第三方大模型能力快速開展業(yè)務(wù),但同時(shí)失去對(duì)數(shù)據(jù)的掌控,B和D通過開放促進(jìn)大模型應(yīng)用生態(tài)發(fā)展,ChatGPT實(shí)現(xiàn)從聊天工具到類OS的躍升;C門檻較高,需要自主研發(fā)或部署大模型,掌控大模型能力,但可以深度提升應(yīng)用能力;E主要面向有模型自主開發(fā)需求的客戶;F主要面向2B客戶,可通過私有化部署保障數(shù)據(jù)安全。未來,大模型與機(jī)器人、智能設(shè)備等硬件結(jié)合(大模型擁有“手腳”),將為商業(yè)模式創(chuàng)新帶來更廣闊的空間。6.2率先重構(gòu)互聯(lián)網(wǎng)、金融、傳媒、教育等行業(yè)陸奇認(rèn)為,要判斷大模型在一個(gè)行業(yè)的發(fā)展機(jī)會(huì),需要考慮模型能力在該行業(yè)的提升速度、三位一體(信息,模型,行動(dòng))體驗(yàn)程度以及能否對(duì)該領(lǐng)域的研發(fā)體系帶來突破性進(jìn)展。具體來看,大模型將率先在互聯(lián)網(wǎng)、金融、傳媒、教育等知識(shí)密集度高的行業(yè)快速滲透(如圖4所示)。圖4AI大模型行業(yè)滲透趨勢(shì)[1]縱軸主要根據(jù)OpenAI對(duì)該行業(yè)通過運(yùn)用大模型和/或嵌入大模型能力的應(yīng)用能至少節(jié)省50%完成時(shí)間的工作任務(wù)占全部工作任務(wù)的比例判斷,橫軸大模型行業(yè)滲透時(shí)間主要根據(jù)麥肯錫對(duì)我國行業(yè)數(shù)字化程度的評(píng)估進(jìn)行判斷。當(dāng)前大模型已在搜索、辦公、編程等互聯(lián)網(wǎng)信息服務(wù)行業(yè)建立標(biāo)桿,如微軟NewBing引入GPT-4能力實(shí)現(xiàn)對(duì)話及復(fù)雜搜索、總結(jié)資料生成答案、發(fā)揮創(chuàng)意提供方案等,提升用戶信息檢索效率,這一點(diǎn)類似公有云初期主要在互聯(lián)網(wǎng)領(lǐng)域應(yīng)用。中期內(nèi),大模型將作為創(chuàng)作必備輔助工具在傳媒、教育等行業(yè)進(jìn)行應(yīng)用推廣,如全球范圍內(nèi)已有超300萬用戶使用OpenAIDALL·E模型繪圖,每天創(chuàng)建的圖片數(shù)量達(dá)到400萬張;在教育領(lǐng)域,基于大模型的AI智能助手可為學(xué)生提供更具個(gè)性化、情景化的學(xué)習(xí)材料,如科大訊飛學(xué)習(xí)機(jī)引入星火大模型能力輔助中小學(xué)生寫作。未來,大模型在醫(yī)療、交通、制造等行業(yè)的長期滲透潛力大。當(dāng)前醫(yī)療、交通、制造等專業(yè)領(lǐng)域正積極探索大模型應(yīng)用場景,如中文醫(yī)療語言大模型“商量·大醫(yī)”通過多輪對(duì)話輔助支持導(dǎo)診、問診、健康咨詢等場景;百度基于交通大模型的全域信控緩堵方案可實(shí)現(xiàn)15-30%的效率提升;華為盤古大模型在礦山、電力等領(lǐng)域通過“預(yù)訓(xùn)練+微調(diào)”方式打造細(xì)分場景模型方案,如煤礦場景下可降低井下安全事故90%以上。未來隨著行業(yè)數(shù)字化程度進(jìn)一步提升、人工智能治理法律法規(guī)進(jìn)一步完善,大模型在上述領(lǐng)域的應(yīng)用將迎來爆發(fā)。6.3以大模型為中心的生態(tài)加速構(gòu)建首先,大模型逐漸發(fā)展成為新型基礎(chǔ)設(shè)施,為上層行業(yè)應(yīng)用開發(fā)和開源生態(tài)提供低成本技術(shù)支撐,形成以大模型為中心的產(chǎn)品生態(tài)。大模型作為一種通用智能助手和交互手段,將重構(gòu)現(xiàn)有大部分應(yīng)用產(chǎn)品的交互方式和使用體驗(yàn),如微軟基于GPT-4能力的GitHubCopilotX、Microsoft365改變用戶原有編程、創(chuàng)作方式,用戶僅需通過自然語言對(duì)話方式便可生成內(nèi)容,當(dāng)前谷歌、微軟、阿里等頭部企業(yè)陸續(xù)將大模型能力應(yīng)用至各種產(chǎn)品中構(gòu)建以模型能力為核心的產(chǎn)品矩陣。隨后,大模型開源將促進(jìn)新開發(fā)生態(tài)的形成,實(shí)現(xiàn)“智能原生”。開發(fā)者可以基于開源模型利用專有數(shù)據(jù)資料在本地進(jìn)行開發(fā)訓(xùn)練,如加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)、加州大學(xué)圣地亞哥分校的研究人員聯(lián)合推出Vicuna,達(dá)到OpenAIChatGPT90%以上水平,訓(xùn)練成本僅需300美元。開源模型解決了大模型可擴(kuò)展的問題,同時(shí)將大模型的訓(xùn)練門檻從企業(yè)級(jí)降低到消費(fèi)級(jí),個(gè)人開發(fā)者利用電腦設(shè)備均能基于開源大模型進(jìn)行定制化、本地化訓(xùn)練。未來基于開源大模型的定制版或?qū)⒉渴鹪谠啤⑦?、端各個(gè)環(huán)節(jié),帶來云端和多云應(yīng)用的重構(gòu)和聯(lián)結(jié)。o
大模型基本概念o
大模型發(fā)展歷程o
大模型關(guān)鍵技術(shù)及訓(xùn)練流程l
大模型關(guān)鍵技術(shù)l
大模型訓(xùn)練流程o
內(nèi)容安排3
目錄延伸閱讀:人工智能大模型綜述及展望0引言人工智能的迅速發(fā)展為人類社會(huì)帶來了巨大的變革。經(jīng)過多年的發(fā)展,人工智能已經(jīng)進(jìn)入了大規(guī)模產(chǎn)業(yè)應(yīng)用階段,在金融、安防和醫(yī)療等多個(gè)領(lǐng)域?qū)崿F(xiàn)應(yīng)用。從模型發(fā)展來看,人工智能經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型4個(gè)階段。在人工智能研究的早期階段,傳統(tǒng)的機(jī)器學(xué)習(xí)模型依賴于手工制作特征和統(tǒng)計(jì)方法。2014年以來,深度學(xué)習(xí)模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[2]、圖神經(jīng)網(wǎng)絡(luò)(GNN)[3]等被廣泛應(yīng)用于各種人工智能任務(wù)。深度學(xué)習(xí)模型需要大量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練才能達(dá)到良好性能,然而手工標(biāo)記數(shù)據(jù)耗時(shí)耗力,并且特定任務(wù)領(lǐng)域的數(shù)據(jù)往往比較稀缺,限制了深度學(xué)習(xí)模型的應(yīng)用。此外,在有限的數(shù)據(jù)量下,當(dāng)參數(shù)量增加時(shí),模型容易出現(xiàn)過擬合問題,難以泛化到不同的任務(wù)領(lǐng)域。為了減少數(shù)據(jù)集構(gòu)建的工作量,提升模型的領(lǐng)域遷移能力,研究者提出使用基于大規(guī)模數(shù)據(jù)集訓(xùn)練的模型來處理不同的任務(wù)。預(yù)訓(xùn)練模型(PretrainedModel,PM)提供了一種基于預(yù)訓(xùn)練和微調(diào)的兩階段解決方案:在預(yù)訓(xùn)練階段,模型從大規(guī)模無監(jiān)督數(shù)據(jù)中學(xué)習(xí)領(lǐng)域知識(shí);在微調(diào)階段,只需要少量的標(biāo)注數(shù)據(jù),就可以將預(yù)訓(xùn)練階段學(xué)到的領(lǐng)域知識(shí)轉(zhuǎn)移到特定任務(wù)中,無需從頭開始訓(xùn)練模型,也不需要耗費(fèi)大量的時(shí)間和精力進(jìn)行數(shù)據(jù)標(biāo)注工作,從而提高模型的泛化能力。預(yù)訓(xùn)練模型首先應(yīng)用于計(jì)算機(jī)視覺(ComputerVision,CV)領(lǐng)域。大規(guī)模圖像數(shù)據(jù)集,如ImageNet[4]的出現(xiàn)為圖像預(yù)訓(xùn)練模型提供了數(shù)據(jù)基礎(chǔ)。通過預(yù)訓(xùn)練,模型能夠?qū)W習(xí)到大量的視覺知識(shí),只需要在少量的任務(wù)相關(guān)數(shù)據(jù)集上進(jìn)行微調(diào),即可在圖像分類、目標(biāo)檢測和場景分割等下游任務(wù)中取得良好表現(xiàn)。隨著預(yù)訓(xùn)練模型在CV領(lǐng)域取得成功,類似的研究也在自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域進(jìn)行。早期的深度語言模型采用Word2Vec[5]等淺層網(wǎng)絡(luò),然而淺層網(wǎng)絡(luò)無法捕獲單詞和句子中的上下文信息?;赗NN的模型能夠結(jié)合上下文信息,然而隨著模型層數(shù)加深,容易出現(xiàn)梯度消失和梯度爆炸問題。Transformer的出現(xiàn)使得在NLP領(lǐng)域構(gòu)建深度模型變得可行。此后,預(yù)訓(xùn)練模型在NLP領(lǐng)域取得了一系列突破,在多個(gè)下游任務(wù)上取得了先進(jìn)性能,超越了傳統(tǒng)的深度學(xué)習(xí)模型。人工智能技術(shù)的三大要素包括數(shù)據(jù)、算法以及算力,這三者的有機(jī)結(jié)合共同構(gòu)建了模型。近年來,傳統(tǒng)的“特定任務(wù)特定模型”的構(gòu)建模式逐漸被“一個(gè)大規(guī)模預(yù)訓(xùn)練模型適用于多個(gè)下游任務(wù)”的模式取代。在這種新模式中,大規(guī)模預(yù)訓(xùn)練模型也被簡稱為大模型。研究人員設(shè)計(jì)先進(jìn)的算法,并借助海量算力和大規(guī)模計(jì)算系統(tǒng)的支持,為不同需求的用戶訓(xùn)練大模型,以服務(wù)于各類人工智能應(yīng)用。最近,人工智能生成內(nèi)容(AIGeneratedContent,AIGC)引起了廣泛關(guān)注。AIGC是指基于人工智能模型,通過大量數(shù)據(jù)學(xué)習(xí)和模型訓(xùn)練,根據(jù)輸入的指令,生成文字、圖像和音頻等相關(guān)內(nèi)容的技術(shù)。AIGC技術(shù)的廣泛應(yīng)用得益于大模型的快速發(fā)展。2018年,谷歌提出BERT[6],模型參數(shù)量達(dá)到3億;2019年2月,OpenAI推出15億參數(shù)量的GPT-2[7];2020年6月,OpenAI繼續(xù)推出1750億參數(shù)量的GPT-3[8]。GPT-3在多個(gè)下游NLP任務(wù)上表現(xiàn)良好,尤其是在生成任務(wù)方面表現(xiàn)突出。GPT-3促進(jìn)了大規(guī)模預(yù)訓(xùn)練模型的研究,模型的參數(shù)規(guī)模從數(shù)十億迅速增長到千億,并且仍然保持快速上升的趨勢(shì)。通過不斷擴(kuò)大模型參數(shù),研究人員正在嘗試探索其性能提升的極限。本文概述了大模型的發(fā)展歷程以及代表性的大模型算法,介紹了大模型的基礎(chǔ)架構(gòu)及其核心原理,分析了大模型的特點(diǎn),討論了大模型的局限性以及未來發(fā)展方向。1大模型發(fā)展概況本節(jié)將分別簡述語言模型和視覺模型的發(fā)展,并介紹具有代表性的大型語言模型和大型視覺模型。從模型發(fā)展歷程來看,大模型的發(fā)展先后經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型4個(gè)階段。目前,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)量已經(jīng)突破了萬億級(jí)。1.1語言模型發(fā)展概況語言模型(LanguageModel,LM)是完成NLP領(lǐng)域各種下游任務(wù)的基礎(chǔ)。早期的語言模型通過統(tǒng)計(jì)方法預(yù)測詞的概率,對(duì)于一個(gè)長度為N的詞序列s,其概率可以表示為:P(s)=P(w1)P(w2|w1)…P(wN|w1w2…wN-1),(1)式中:P(wi)為第i個(gè)詞出現(xiàn)的概率,P(s)為在給定前i-1個(gè)詞的情況下第i個(gè)詞出現(xiàn)的概率。當(dāng)詞序列較長時(shí),式(1)的計(jì)算量較大,模型難以學(xué)習(xí),因此研究者采用N元模型對(duì)上述公式進(jìn)行近似計(jì)算:P(wt|w1w2…wt-1)≈P(wt|wt-k…wt-1)。(2)N元模型在估算條件概率時(shí),只需要對(duì)當(dāng)前詞的前N-1個(gè)詞進(jìn)行計(jì)算,然而,N元模型缺乏對(duì)句子的長期依賴建模能力,并且隨著N增大,參數(shù)空間呈指數(shù)增長,限制了模型在大語料庫上的建模能力。為了解決這個(gè)問題,研究者提出了神經(jīng)網(wǎng)絡(luò)模型。2003年,Bengio等[9]提出了前饋神經(jīng)網(wǎng)絡(luò)(FFNN)來學(xué)習(xí)單詞的分布式特征表示,通過將單詞投影為低維向量,減少了模型的計(jì)算復(fù)雜度。然而,FFNN只能處理固定長度的單詞序列。隨后,Mikolov等[10]提出了RNN,可以處理變長的詞序列。然而RNN模型在訓(xùn)練過程中容易出現(xiàn)梯度爆炸和梯度消失問題。Sundermeyer等[11]提出了長短期記憶RNN模型(LSTM-RNN),它能夠?qū)W習(xí)到單詞序列的長期依賴關(guān)系,并且能夠有效地緩解梯度消失和梯度爆炸問題。1.2預(yù)訓(xùn)練語言模型發(fā)展概況盡管神經(jīng)網(wǎng)絡(luò)模型在NLP領(lǐng)域取得了一定的成功,但與CV領(lǐng)域相比,性能提升相對(duì)較小。主要原因在于大多數(shù)NLP任務(wù)的監(jiān)督數(shù)據(jù)集規(guī)模較小。由于神經(jīng)網(wǎng)絡(luò)模型通常具有較深的網(wǎng)絡(luò)結(jié)構(gòu),因此在小數(shù)據(jù)集上容易發(fā)生過擬合,并且泛化性能較差,難以在各種下游任務(wù)中應(yīng)用。得益于大規(guī)模圖像數(shù)據(jù)集ImageNet的發(fā)展,預(yù)訓(xùn)練技術(shù)在CV領(lǐng)域得到廣泛應(yīng)用,緩解了深度視覺模型在下游任務(wù)上的遷移問題。為了解決語言模型過擬合和泛化性差的問題,研究者將預(yù)訓(xùn)練技術(shù)引入到NLP領(lǐng)域。首先在大規(guī)模文本語料庫上進(jìn)行模型預(yù)訓(xùn)練,然后針對(duì)不同的下游任務(wù)在較小的數(shù)據(jù)集上進(jìn)一步微調(diào),經(jīng)過預(yù)訓(xùn)練的模型性能遠(yuǎn)遠(yuǎn)優(yōu)于隨機(jī)初始化的模型。Word2Vec[5]首先在不同的NLP任務(wù)中驗(yàn)證了預(yù)訓(xùn)練技術(shù)的有效性。Dai等[12]提出了利用LSTM初始化語言模型的方法,提升了模型在多個(gè)文本分類任務(wù)中的訓(xùn)練速度和泛化能力。Ramachandran等[13]提出了無監(jiān)督預(yù)訓(xùn)練的Seq2Seq模型,使用預(yù)訓(xùn)練權(quán)重初始化編碼器和解碼器,然后在下游數(shù)據(jù)進(jìn)行微調(diào),從而顯著改善模型的泛化性能。然而,上述模型學(xué)習(xí)到的詞嵌入與上下文無關(guān),因此在遷移到下游任務(wù)時(shí)仍需要對(duì)模型進(jìn)行重新訓(xùn)練和調(diào)整。為了解決這個(gè)問題,研究者開始在句子級(jí)別以上的層次進(jìn)行預(yù)訓(xùn)練。Sarzynska-wawer等[14]提出了嵌入語言模型(EmbeddingsfromLanguageModels,ELMo),采用正向和反向的雙層LSTM編碼器結(jié)構(gòu),學(xué)習(xí)詞的上下文語義表示。ELMo在多種NLP下游任務(wù)上帶來了巨大的改進(jìn)。然而,ELMo通常被用作特征提取器,生成上下文詞嵌入向量,并將其輸入到下游主模型中,而模型的其他部分仍需從頭開始訓(xùn)練。近年來,基于Transformer架構(gòu)的預(yù)訓(xùn)練模型(PTM)出現(xiàn),并能夠?qū)W習(xí)到通用的語言表示。通過在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練,模型初始化得到了改善,避免了從頭開始訓(xùn)練模型,加快了模型在目標(biāo)任務(wù)上的收斂速度,并能更好地泛化到各種下游任務(wù),從而避免了在小數(shù)據(jù)集上的過擬合問題。隨著計(jì)算機(jī)算力的提升、更深層模型的出現(xiàn)以及訓(xùn)練技巧的增強(qiáng),PTM架構(gòu)的深度和參數(shù)量也在不斷增加。1.3語言大模型發(fā)展概況語言大模型(LLM)是指參數(shù)量在十億及以上的大型預(yù)訓(xùn)練語言模型。在大規(guī)模文本語料數(shù)據(jù)庫和自監(jiān)督預(yù)訓(xùn)練技術(shù)的加持下[15],LLM顯示了強(qiáng)大的通用語言表示能力,并且在解決復(fù)雜任務(wù)時(shí)展現(xiàn)出卓越的性能。LLM的快速發(fā)展給人工智能領(lǐng)域的研究帶來了革命性的變化,吸引了越來越多研究者的關(guān)注。從圖1可以看出,GPT-1[16]發(fā)布后,與LLM相關(guān)的arXiv論文急劇增加。圖1arXiv論文累計(jì)數(shù)量趨勢(shì)Fig.1ThetrendsofcumulativenumbersofarXivpapers2018年,谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT[6],采用自編碼(Autoencoding)方式進(jìn)行預(yù)訓(xùn)練。BERT首先通過自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí)文本表示,然后基于掩碼語言模型(MaskedLanguageModel,MLM)和下一句預(yù)測(NextSentencePrediction,NSP)學(xué)習(xí)單詞和句子級(jí)的語義表示。BERT只需要針對(duì)特定的下游任務(wù)對(duì)輸出層進(jìn)行微調(diào),即可在多個(gè)NLP任務(wù)中取得最先進(jìn)水平,模型參數(shù)量首次超過3億。谷歌在BERT基礎(chǔ)上繼續(xù)進(jìn)行優(yōu)化,使用更多的訓(xùn)練數(shù)據(jù)和訓(xùn)練資源,提出動(dòng)態(tài)掩碼調(diào)整策略,得到了精度更高的RoBERTa模型[17],在多個(gè)下游任務(wù)上達(dá)到最先進(jìn)水平。2018年,OpenAI提出了生成式預(yù)訓(xùn)練模型GPT-1[16],GPT-1基于自回歸模型進(jìn)行預(yù)訓(xùn)練。不同于自編碼模型通過掩碼-重建方式預(yù)測單詞的位置,自回歸模型假定一個(gè)詞在特定位置的概率分布是由之前所有詞的分布決定的。因此,GPT的注意力是單向的,無法利用下文的信息。GPT-1采用無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)的混合方法,對(duì)于不同任務(wù)采用不同的輸出層,只需簡單的微調(diào)便能取得非常好的效果。BERT和GPT-1的成功引起了語言大模型的研究熱潮,由圖2可以看出,GPT-1發(fā)布后,語言大模型的參數(shù)規(guī)模短時(shí)間內(nèi)快速增長。2019年,OpenAI繼續(xù)發(fā)布了GPT-2[7]。GPT-2采用與GPT-1類似的架構(gòu),參數(shù)規(guī)模增加到15億,基于大型網(wǎng)頁數(shù)據(jù)集WebText進(jìn)行預(yù)訓(xùn)練。研究者認(rèn)為,任何一個(gè)有監(jiān)督NLP任務(wù),都可以看成世界文本子集上的單詞預(yù)測問題,只要預(yù)訓(xùn)練語言模型足夠大,理論上就能解決任何NLP任務(wù)[18]。GPT-2通過無監(jiān)督語言建模的形式進(jìn)行多任務(wù)學(xué)習(xí),采用語言文本作為格式化輸入、輸出和任務(wù)信息的統(tǒng)一表示,將解決任務(wù)的過程看作一個(gè)單詞預(yù)測問題。GPT-2通過擴(kuò)展模型的容量和數(shù)據(jù)多樣性達(dá)到了良好性能,但由于模型尺寸相對(duì)較小,與最先進(jìn)的有監(jiān)督微調(diào)方法相比,總體性能較差。2020年,OpenAI發(fā)布了GPT-3[8]模型。GPT-3基于GPT-2擴(kuò)展模型架構(gòu),參數(shù)量達(dá)到了1750億,實(shí)現(xiàn)了模型參數(shù)量的飛躍提升。GPT-3引入了上下文學(xué)習(xí)的概念,指導(dǎo)模型以自然語言文本的形式理解任務(wù)。基于上下文學(xué)習(xí),GPT-3的預(yù)訓(xùn)練目標(biāo)和輸出收斂到相同的語言建模范式:預(yù)訓(xùn)練根據(jù)上下文預(yù)測文本序列,下游任務(wù)通過上下文學(xué)習(xí)預(yù)測任務(wù)解決方案,然后將其格式化,并輸出文本序列。GPT-3在多個(gè)NLP任務(wù)中表現(xiàn)出了非常出色的性能,在需要推理或領(lǐng)域適應(yīng)能力的任務(wù)上也表現(xiàn)了出色的能力。以GPT-3模型為基礎(chǔ)的人工智能對(duì)話系統(tǒng)ChatGPT在發(fā)布后吸引了社會(huì)對(duì)人工智能技術(shù)的廣泛關(guān)注。由于GPT-3的強(qiáng)大性能,OpenAI將其作為基礎(chǔ)模型開發(fā)更強(qiáng)的LLM。原始GPT-3模型的主要不足之一是缺少復(fù)雜推理能力,例如解決數(shù)學(xué)問題和生成代碼。為了解決這個(gè)問題,OpenAI推出了Codex[19],基于大量GitHub代碼庫對(duì)GPT-3進(jìn)行微調(diào)。Codex可以解決復(fù)雜的編程問題,解決數(shù)學(xué)問題的能力也得到極大提升[20]。在此基礎(chǔ)上,OpenAI提出了GPT-3.5[21]模型,通過對(duì)比學(xué)習(xí)文本和代碼嵌入,模型的復(fù)雜推理能力得到顯著提升。InstructGPT[22]提出三階段人類反饋強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)算法,通過強(qiáng)化學(xué)習(xí)引入人類監(jiān)督以學(xué)習(xí)人類偏好,提高模型在NLP任務(wù)上的能力。GPT-3的訓(xùn)練語料大多來自于網(wǎng)絡(luò),可能包含大量錯(cuò)誤的、惡意的、帶有攻擊性的“有毒”文本。RLHF算法能夠有效緩解LLM產(chǎn)生危害內(nèi)容的問題,使模型輸出更安全、更有用、更符合人類想法的結(jié)果,實(shí)現(xiàn)LLM的安全部署。圖2語言大模型規(guī)模變化趨勢(shì)Fig.2ThetrendsoftheLLMscalechanges2020年,谷歌發(fā)布了T5模型[23],T5提出將NLP任務(wù)轉(zhuǎn)換成Text-to-Text形式,使用相同的模型、訓(xùn)練和解碼方式將所有NLP任務(wù)納入一個(gè)統(tǒng)一框架。T5模型參數(shù)量達(dá)到110億。在T5基礎(chǔ)上,谷歌發(fā)布了Flan-T5[24],提出一套多任務(wù)的模型微調(diào)方案。通過在超大規(guī)模的任務(wù)上進(jìn)行微調(diào),Flan-T5表現(xiàn)出極強(qiáng)的泛化性能,在1800多個(gè)NLP任務(wù)上都有良好的表現(xiàn)。2021年,清華大學(xué)發(fā)布GLM模型[25],試圖通過一個(gè)預(yù)訓(xùn)練框架統(tǒng)一NLP領(lǐng)域的三大類任務(wù):自然語言理解、無條件生成和有條件生成。GLM提出了基于自回歸空白填充的預(yù)訓(xùn)練框架,通過改進(jìn)空白填充方式,在3類任務(wù)上實(shí)現(xiàn)了優(yōu)于BERT、T5和GPT的性能,在不同下游任務(wù)上表現(xiàn)出極強(qiáng)的泛化性能。2022年,谷歌發(fā)布了PaLM模型[26],參數(shù)量突破千億規(guī)模,達(dá)到5400億。PaLM延續(xù)了語言大模型的優(yōu)化路徑,在7800億個(gè)高質(zhì)量文本的token上進(jìn)行高效訓(xùn)練。PaLM在各種下游任務(wù)上超越了之前最先進(jìn)的模型,這表明大模型的參數(shù)量提升還沒有到達(dá)頂點(diǎn),PaLM還表現(xiàn)出了零樣本學(xué)習(xí)、語言理解和復(fù)雜推理的能力,充分展示了大模型的發(fā)展?jié)摿Α?023年2月,MetaAI發(fā)布了LLaMA模型[27],初始版本包括70億、130億、300億和650億4種規(guī)模。自發(fā)布以來,LLaMA引起了研究界和工業(yè)界的廣泛關(guān)注。LLaMA模型在各種開放基準(zhǔn)上取得了優(yōu)異性能,已經(jīng)成為迄今為止最流行的開源語言大模型。許多研究者通過指令微調(diào)或預(yù)訓(xùn)練來擴(kuò)展LLaMA模型,由于相對(duì)較低的計(jì)算成本,基于LLaMA模型微調(diào)成為開發(fā)或定制專用模型的主流。Vicuna[28]是其中一種流行的LLaMA變體,使用從ShareGPT收集的用戶共享對(duì)話數(shù)據(jù)進(jìn)行訓(xùn)練,用GPT-4評(píng)測可以達(dá)到ChatGPT90%的水平。2023年7月,Meta開源了性能更強(qiáng)的LLaMA-2[29],LLaMA-2使用更大、質(zhì)量更好的語料庫進(jìn)行訓(xùn)練,在模型性能、推理效率以及安全性等方面得到全面提升。LLaMA-2在40多個(gè)評(píng)測集上進(jìn)行了全方位的評(píng)測,在學(xué)科、語言、知識(shí)、理解和推理五大維度,相比LLaMA-1都有明顯提升。然而由于訓(xùn)練語料中的中文數(shù)據(jù)占比較少,LLaMA-2在中文能力上仍顯不足;此外,LLaMA-2采用相對(duì)保守的安全對(duì)齊方案,導(dǎo)致模型的安全性和模型能力平衡較差。由于LLaMA系列模型的出色性能和可用性,許多多模態(tài)模型將其作為基礎(chǔ)語言模型,以實(shí)現(xiàn)較強(qiáng)的語言理解和生成能力。LLaMA的發(fā)布極大地推進(jìn)了大模型的研究進(jìn)展。1.4視覺模型發(fā)展概況早期的視覺模型采用手工設(shè)計(jì)特征和機(jī)器學(xué)習(xí)方法解決圖像分類等視覺問題。然而,手工設(shè)計(jì)特征局限于像素層面,損失了過多圖像信息,導(dǎo)致模型的精度較低。與基于手工特征的方法不同,基于CNN的模型具有強(qiáng)大的特征提取能力和相對(duì)較低的計(jì)算復(fù)雜度。2012年,研究者提出了基于CNN架構(gòu)的AlexNet[30],其在ImageNet圖像識(shí)別挑戰(zhàn)賽中的識(shí)別精度首次超越手工特征方法。在此基礎(chǔ)上,VGGNet[31]證明了更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提升模型精度。ResNet[32]提出在每個(gè)模塊中添加殘差連接,以解決深層模型的優(yōu)化問題,同時(shí)引入了瓶頸塊來減少參數(shù)數(shù)量。簡單的實(shí)現(xiàn)和良好的性能使ResNet仍然是當(dāng)今最常用的架構(gòu)。此外,研究者探索了CNN模型的輕量化,MobileNets[33]提出了深度可分離卷積、反向殘差塊和神經(jīng)架構(gòu)搜索(NAS),以實(shí)現(xiàn)更好的精度-復(fù)雜度權(quán)衡。1.5預(yù)訓(xùn)練視覺模型發(fā)展概況隨著Transformer架構(gòu)在NLP領(lǐng)域大獲成功,研究者開始探索將其應(yīng)用到CV領(lǐng)域。視覺Transformer(VisionTransformer,ViT)[34]提出將圖像分成一系列不重疊的圖像塊,然后通過線性變換將其投影為圖像塊嵌入編碼,并添加位置編碼標(biāo)記圖像塊的位置。輸入嵌入向量中添加了圖像類別嵌入向量,三者結(jié)合共同作為ViT的輸入,然后通過自注意力機(jī)制捕獲圖像之間的遠(yuǎn)程依賴性。ViT巧妙地將圖片構(gòu)造成patch序列,啟發(fā)了研究者在CV領(lǐng)域正確使用Transformer的方式。實(shí)驗(yàn)表明,在大型數(shù)據(jù)集上預(yù)訓(xùn)練后,ViT能夠?qū)崿F(xiàn)較好的性能。經(jīng)過精心設(shè)計(jì)的深度視覺模型能夠處理各種下游視覺任務(wù),在自動(dòng)駕駛、智能監(jiān)控和安防等領(lǐng)域有重要應(yīng)用。然而,隨著模型規(guī)模的不斷擴(kuò)大,針對(duì)特定任務(wù)進(jìn)行數(shù)據(jù)收集和標(biāo)注需要耗費(fèi)大量時(shí)間和成本,模型訓(xùn)練需要消耗大量訓(xùn)練資源。為了解決這個(gè)問題,研究者引入預(yù)訓(xùn)練技術(shù)來學(xué)習(xí)通用的視覺表示,以減少訓(xùn)練資源的消耗和訓(xùn)練數(shù)據(jù)的收集成本。隨著大規(guī)模圖像數(shù)據(jù)集(如ImageNet)的出現(xiàn),研究者開始探索CV領(lǐng)域的預(yù)訓(xùn)練模型。預(yù)訓(xùn)練視覺模型在海量圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到通用視覺特征表示,然后基于較小的下游標(biāo)注數(shù)據(jù)集對(duì)模型進(jìn)行精細(xì)調(diào)整。在微調(diào)階段,模型只需要消耗較少的訓(xùn)練資源就能取得比從頭開始訓(xùn)練更好的性能。主流的預(yù)訓(xùn)練視覺模型包括ResNet[32]、ViT[34]、EfficientNet[35]和SwinTransformer[36]等?;诖笠?guī)模視覺數(shù)據(jù)庫,模型能夠更有效地學(xué)習(xí)通用視覺特征表示,理解下游任務(wù)中的圖像,從而提高模型在下游任務(wù)上的泛化性[37]。然而,預(yù)訓(xùn)練數(shù)據(jù)集和下游任務(wù)的特定數(shù)據(jù)集之間存在領(lǐng)域差異,導(dǎo)致模型的遷移能力仍有不足。1.6視覺大模型發(fā)展概況ViT首次將Transformer架構(gòu)應(yīng)用于CV領(lǐng)域,驗(yàn)證了Transformer作為統(tǒng)一視覺模型架構(gòu)的可行性。在NLP領(lǐng)域,基于掩碼語言模型(MaskedLanguageModel)的BERT模型引領(lǐng)了自監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)范式。受此啟發(fā),2022年,He等[38]提出了視覺掩碼自編碼(MaskedAutoencoders,MAE)模型,MAE使用編碼器-解碼器(encoder-decoder)架構(gòu),在encoder部分,首先將圖片構(gòu)建成patch序列,學(xué)習(xí)圖片的細(xì)粒度特征;在decoder部分,基于原始的圖片token和掩碼token對(duì)掩碼圖片進(jìn)行重建。MAE對(duì)圖像重建進(jìn)行解耦,能夠?qū)W習(xí)到更加有效的圖像特征,基于像素點(diǎn)的重建目標(biāo)能夠避免監(jiān)督信息的丟失,提高重建的質(zhì)量。MAE能夠在高達(dá)75%的掩碼率下對(duì)圖像進(jìn)行重建,并且在下游的目標(biāo)檢測和語義分割任務(wù)等任務(wù)上有不俗的表現(xiàn)。基于MAE重建的圖像雖然具有與原始圖像相似的語義信息,但會(huì)出現(xiàn)嚴(yán)重的模糊與失真問題。為了解決這個(gè)問題,MIT提出MAGE[39],MAGE使用基于圖像語義符圖像掩碼建模方法,首先使用VQGAN[40]編碼器將原始圖像轉(zhuǎn)換為離散語義符,然后對(duì)其進(jìn)行隨機(jī)掩碼,之后基于encoder-decoder結(jié)構(gòu)對(duì)掩碼進(jìn)行重構(gòu),最后通過VQGAN解碼器將重構(gòu)后的語義符還原為原始圖像。MAGE重建出的圖像能夠保持與原始圖像一致的語義信息,還能保證生成圖像的多樣性與真實(shí)性,在多個(gè)圖像生成與圖像識(shí)別任務(wù)上都達(dá)到或超過了最先進(jìn)水平,實(shí)現(xiàn)了圖像生成和圖像識(shí)別的統(tǒng)一框架。2022年,南京大學(xué)提出視頻掩碼自編碼器(VideoMAE)[41],將預(yù)訓(xùn)練大模型擴(kuò)展到視頻領(lǐng)域,用于解決動(dòng)作識(shí)別和動(dòng)作檢測等視頻任務(wù)。VideoMAE采用帶有時(shí)序間隔的采樣策略來進(jìn)行更加高效的視頻自監(jiān)督預(yù)訓(xùn)練,在輸入到編碼器中之前,對(duì)采樣得到的視頻片段采用時(shí)空聯(lián)合的形式進(jìn)行像素塊嵌入,在自監(jiān)督預(yù)訓(xùn)練的過程中采用管道式掩碼策略,以解決由視頻數(shù)據(jù)中的時(shí)序冗余性和時(shí)序相關(guān)性導(dǎo)致的“信息泄漏”問題。VideoMAE在多個(gè)下游任務(wù)上表現(xiàn)出良好的泛化能力和遷移能力,推動(dòng)了后續(xù)基于Transformer的視頻理解大模型發(fā)展。隨后,南京大學(xué)團(tuán)隊(duì)提出了VideoMAEV2[42],研究VideoMAE的可擴(kuò)展性,探索視頻大模型在多種視頻下游任務(wù)上的性能極限。VideoMAEV2的模型參數(shù)量達(dá)到了十億級(jí)別,預(yù)訓(xùn)練數(shù)據(jù)增加到百萬量級(jí)。VideoMAEV2在動(dòng)作識(shí)別、時(shí)空動(dòng)作檢測、時(shí)序動(dòng)作檢測等多種下游任務(wù)上取得了先進(jìn)的性能。圖像分割是CV的一項(xiàng)核心任務(wù),需要識(shí)別圖像像素所屬對(duì)象。2023年,MetaAI提出了通用圖像分割模型SAM[43],SAM基于超過10億個(gè)掩模的多樣化、高質(zhì)量大型分割數(shù)據(jù)集——SegmentAnything1-Billionmaskdataset(SA-1B)進(jìn)行預(yù)訓(xùn)練,利用提示工程(PromptEngineering)處理下游分割任務(wù)[44],這使其能夠泛化到從未見過的新對(duì)象和圖像類型,且不需要對(duì)下游任務(wù)進(jìn)行微調(diào)。SAM分為三部分:圖像編碼器、提示編碼器和掩模解碼器,這種結(jié)構(gòu)可以有效地降低計(jì)算成本,增強(qiáng)模型靈活性和魯棒性,實(shí)現(xiàn)了具有泛化性和通用性的分割模型?;诖笠?guī)模預(yù)訓(xùn)練和提示工程,SAM學(xué)習(xí)到了分割對(duì)象的一般表示,可以分割任何圖像或任何視頻中的任何對(duì)象。SAM的通用性使其可以覆蓋廣泛的對(duì)象用例,甚至在新圖像“域”(如水下照片或顯微鏡細(xì)胞)也能較好地完成分割任務(wù)。SAM-Track[45]提出了一種視頻分割框架,該框架結(jié)合了Grounding-DINO、DeAOT和SAM,以實(shí)現(xiàn)跨多種模式的交互式和自動(dòng)化對(duì)象跟蹤和分割。該框架在視頻第一幀中結(jié)合了點(diǎn)擊提示、框提示和文本提示等形式的交互式提示來指導(dǎo)SAM的分割過程。隨后,在接下來的框架中使用文本提示來進(jìn)一步細(xì)化結(jié)果。這種多功能框架可應(yīng)用于廣泛的領(lǐng)域,包括無人機(jī)技術(shù)、自動(dòng)駕駛、醫(yī)學(xué)成像、增強(qiáng)現(xiàn)實(shí)和生物分析等。Painter[46]將自然語言中的上下文學(xué)習(xí)能力遷移到視覺任務(wù)中,可以根據(jù)輸入提示自動(dòng)切換任務(wù)功能,在語義分割、深度估計(jì)和姿態(tài)估計(jì)等任務(wù)中均取得了良好的泛化性能。在國內(nèi)工業(yè)界,大模型發(fā)展也十分迅速。2021年4月華為發(fā)布了盤古大模型,參數(shù)量超過30億,是當(dāng)時(shí)最大的視覺預(yù)訓(xùn)練模型,盤古大模型在ImageNet1%、10%數(shù)據(jù)集上的小樣本分類精度達(dá)到了業(yè)界最高水平。百度提出了170億參數(shù)的視覺多任務(wù)模型UFO[47],在人臉、人體、車輛、商品和食物細(xì)粒度分類等多個(gè)CV任務(wù)上取得了先進(jìn)水平。UFO提出了針對(duì)視覺多任務(wù)的訓(xùn)練方案,解決大模型參數(shù)量大、推理能力差的問題。視覺大模型已成為人工智能領(lǐng)域的一個(gè)發(fā)展趨勢(shì),然而,目前其性能仍然受到特定視覺領(lǐng)域知識(shí)的限制,缺少類似于ChatGPT這樣一個(gè)現(xiàn)象級(jí)的模型應(yīng)用。為了解決這一問題,未來的研究方向應(yīng)當(dāng)側(cè)重于整合多樣化的數(shù)據(jù)集,促進(jìn)不同領(lǐng)域的專有模型融合,擴(kuò)展模型知識(shí)的廣度,以充分發(fā)揮視覺大模型的潛力。1.7視覺-語言大模型發(fā)展概況視覺-語言大模型是指利用視覺和語言數(shù)據(jù)之間的跨模態(tài)交互,學(xué)習(xí)視覺的一般特征,然后將其轉(zhuǎn)移到下游的分類、檢索、目標(biāo)檢測、視頻理解、視覺問答、圖像描述和圖像生成等視覺任務(wù)的大模型。在Transformer架構(gòu)[48]中,最小的特征單元是嵌入向量,這種特性使其非常適合處理多模態(tài)數(shù)據(jù),因?yàn)榍度雽涌梢詫⑷魏文B(tài)的輸入轉(zhuǎn)換為嵌入向量。2021年,OpenAI提出視覺-語言大模型CLIP[49],CLIP收集了來自互聯(lián)網(wǎng)的4億個(gè)圖像文本對(duì)的海量數(shù)據(jù),利用圖像和文本之間的關(guān)聯(lián)性,基于對(duì)比學(xué)習(xí)進(jìn)行弱監(jiān)督預(yù)訓(xùn)練?;谌斯ぴO(shè)計(jì)的提示(prompt),CLIP在下游任務(wù)上可以實(shí)現(xiàn)零樣本預(yù)測,并且實(shí)現(xiàn)了最先進(jìn)的少樣本預(yù)測性能。CLIP展示了大模型學(xué)習(xí)通用視覺-文本表示的能力,驗(yàn)證了文本-圖像結(jié)合的大規(guī)模弱監(jiān)督預(yù)訓(xùn)練的有效性。在此基礎(chǔ)上,許多大型視覺-語言模型,例如Clip4clip[50]、ActionCLIP[51]等得到進(jìn)一步發(fā)展,為通用視覺-文本表示的發(fā)展提供了新的見解。2022年,Salesforce提出BLIP[52],BLIP通過聯(lián)合訓(xùn)練視覺和語言模型來提升多模態(tài)任務(wù)的性能。BLIP引入了的多模態(tài)混合編碼器-解碼器結(jié)構(gòu)(MultimodalMixtureofEncoder-Decoder,MED),通過3個(gè)損失函數(shù)進(jìn)行多任務(wù)聯(lián)合預(yù)訓(xùn)練。BLIP在圖像-文本檢索、圖像標(biāo)題、視覺問答、視覺推理和視覺對(duì)話等多個(gè)下游任務(wù)上取得了良好的性能。傳統(tǒng)的多模態(tài)視覺任務(wù)(如VQA)中包含文字和圖像理解內(nèi)容,如何將它們結(jié)合起來,是一個(gè)重要問題。Flamingo[53]提出“以視覺為prompt,輸出文本預(yù)測”的框架,將多模態(tài)任務(wù)轉(zhuǎn)化為文本預(yù)測任務(wù)。Flamingo通過凍結(jié)預(yù)訓(xùn)練視覺模型和預(yù)訓(xùn)練語言模型的參數(shù)充分保留單模態(tài)的大模型知識(shí),可以處理任意交錯(cuò)的視覺和文本數(shù)據(jù)序列,無縫使用圖像或視頻作為輸入。Flamingo在多個(gè)下游任務(wù)上表現(xiàn)出極強(qiáng)的少樣本學(xué)習(xí)能力。BLIP-2[54]提出了更簡潔的預(yù)訓(xùn)練方法,利用現(xiàn)有的單模態(tài)視覺和文本預(yù)訓(xùn)練模型,以減少計(jì)算成本,避免災(zāi)難性遺忘問題。BLIP和BLIP-2是視覺語言-預(yù)訓(xùn)練領(lǐng)域取得的重要進(jìn)展,為多模態(tài)任務(wù)的研究提供了新的思路和方法。2023年3月,GPT-4[55]正式發(fā)布,它將文本輸入擴(kuò)展到多模態(tài)輸入。GPT-4解決復(fù)雜任務(wù)的能力比GPT-3.5更強(qiáng),在許多評(píng)估任務(wù)上表現(xiàn)出較大的性能提升。由于GPT-4未開源,MiniGPT-4[56]基于BLIP-2對(duì)GPT-4進(jìn)行復(fù)現(xiàn)。MiniGPT-4采用BLIP-2預(yù)訓(xùn)練好的Q-Former作為視覺編碼器,Vicuna[28]作為語言編碼器,然后通過一個(gè)線性層將視覺特征映射到Vicuna的特征空間,MiniGPT-4首先采用圖像文本對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后構(gòu)建了一個(gè)高質(zhì)量的圖像文本數(shù)據(jù)集來進(jìn)行微調(diào)。相較于BLIP-2,MiniGPT-4提升的關(guān)鍵在于采用了更好的LLM,同時(shí)采用了高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)。但MiniGPT-4也存在一定的局限性,比如無法從圖像中獲取細(xì)粒度的信息以及無法識(shí)別位置信息。PaLM-E[57]提出具身多模態(tài)語言模型,使得模型具備具身推理能力。視覺指令調(diào)整(VisualInstructionTuning)[58]構(gòu)建了多模態(tài)的圖文指令數(shù)據(jù)庫,并提升了模型在新任務(wù)中的零樣本遷移能力。良好的視覺特征表示對(duì)于解決下游視覺任務(wù)(圖像檢索、圖像分類、視頻理解)至關(guān)重要,然而,學(xué)習(xí)視覺特征表示依然嚴(yán)重依賴于大規(guī)模視覺監(jiān)督數(shù)據(jù)集。為了解決這個(gè)問題,谷歌提出了ALIGN模型[59],使用超過10億圖像文本對(duì)的噪聲數(shù)據(jù)集,基于對(duì)比學(xué)習(xí)損失,來學(xué)習(xí)對(duì)齊圖像文本對(duì)的視覺-語言表示。ALIGN證明了大規(guī)模的語料庫可以掩蓋數(shù)據(jù)內(nèi)部存在的噪聲,只使用簡單的學(xué)習(xí)方式,模型也能學(xué)習(xí)到良好的特征表示。視覺-語言大模型研究方興未艾,還存在許多挑戰(zhàn)和潛在的研究方向。Transformer的出現(xiàn)使得圖像和文字可以通過相同的方式進(jìn)行學(xué)習(xí),若采用統(tǒng)一的Transformer架構(gòu)同時(shí)處理圖像和文字輸入可以有效提升預(yù)訓(xùn)練的效率;目前大多數(shù)視覺-語言模型僅使用單一語言進(jìn)行預(yù)訓(xùn)練,采用多種語言文本進(jìn)行預(yù)訓(xùn)練可以提高模型在不同語言環(huán)境下的泛化性;此外,視覺語言模型的高效輕量化也是值得探索的方向。2大模型架構(gòu)2017年,谷歌提出了Transformer架構(gòu)[48],由于其出色的模型容量和并行能力,Transformer已經(jīng)成為開發(fā)各種大模型的標(biāo)準(zhǔn)骨干模型,基于Transformer架構(gòu)可以將大模型擴(kuò)展到數(shù)百億甚至數(shù)千億參數(shù)規(guī)模。2.1多頭自注意力機(jī)制自注意力(SelfAttention,SA)是Transformer中的基本模塊。SA通過3個(gè)可學(xué)習(xí)的線性映射矩陣WQ,WK,WV將輸入序列投影為一組維度為C的查詢Q、鍵K和值V,然后通過以下公式計(jì)算得到自注意力權(quán)重:(3)通過對(duì)輸入序列進(jìn)行線性變換,SA能夠捕捉輸入序列的語義特征和遠(yuǎn)距離的依賴關(guān)系。多頭自注意力(Multi-headSelf-Attention,MSA)是自注意力的擴(kuò)展,由n個(gè)自注意力頭構(gòu)成,通過并行實(shí)現(xiàn)注意力操作,經(jīng)過線性投影層后將所有自注意力頭的輸出進(jìn)行拼接:MSA(Q,K,V)=Concat(SA1,SA2,…,SAn)*WO,(4)式中:WO表示線性變換矩陣,SAn表示第n個(gè)自注意力頭的輸出。2.2Transformer架構(gòu)Transformer的模型架構(gòu)如圖3所示,由多個(gè)編碼器和解碼器疊加構(gòu)成,每個(gè)編碼器由2個(gè)基本模塊組成,即MSA模塊和前饋全連接(FeedForwardNetwork,FFN)模塊。MSA模塊利用自注意力機(jī)制學(xué)習(xí)輸入序列內(nèi)部的相關(guān)關(guān)系,FFN模塊包含激活函數(shù)和2個(gè)線性層,MSA模塊和FFN模塊均使用殘差連接和層歸一化(LayerNormalization,LN)結(jié)構(gòu)。給定輸入序列x0,第k個(gè)編碼器的輸出如下:(5)式中:xpos表示位置嵌入,xk表示第k個(gè)編碼器的輸出。解碼器與編碼器的結(jié)構(gòu)稍有不同,由2個(gè)多頭自注意力模塊和一個(gè)前饋全連接模塊組成,其中一個(gè)MSA模塊增加了單向注意力掩碼,使得輸入嵌入向量只能關(guān)注過去的嵌入向量和它本身,確保預(yù)測結(jié)果只依賴于已生成的輸出詞元,然后,掩碼多頭注意力模塊的輸出和編碼器的輸出通過第二個(gè)MSA模塊進(jìn)行處理。圖3Transformer架構(gòu)示意Fig.3SchematicdiagramofTransformerarchitecture視覺Transformer的結(jié)構(gòu)與原始的Transformer類似,輸入由一維語言嵌入序列改為二維圖像塊的向量,然后使用線性層將向量投影為圖像塊嵌入編碼,添加位置編碼標(biāo)記圖像塊的位置。輸入嵌入向量中還添加了類別嵌入向量,三者結(jié)合共同作為視覺Transformer的輸入。Transformer架構(gòu)有效解決了長序列輸入的長時(shí)依賴問題,模型的并行性提高了訓(xùn)練效率,有效緩解了模型過大導(dǎo)致的梯度消失和梯度爆炸問題,在NLP和CV領(lǐng)域的多個(gè)任務(wù)中取得了良好效果,為大模型的快速發(fā)展奠定了基礎(chǔ)。3大模型特點(diǎn)目前,大模型主要基于深層的Transformer架構(gòu)進(jìn)行構(gòu)建,采用和較小的預(yù)訓(xùn)練模型類似的預(yù)訓(xùn)練目標(biāo)。然而,大模型表現(xiàn)出較小的預(yù)訓(xùn)練模型不具有的特點(diǎn)。本節(jié)將討論大模型的特點(diǎn)并探究背后的機(jī)理。3.1大模型的擴(kuò)展定理廣泛的研究表明,擴(kuò)展訓(xùn)練數(shù)據(jù)大小或模型大小可以很大程度上提高大模型的能力[7-8,60]。語言大模型可以更好地根據(jù)上下文理解自然語言并生成高質(zhì)量的文本。視覺大模型可以學(xué)習(xí)到通用的視覺表示并泛化到新的圖像域。大模型這一能力提升可以部分通過擴(kuò)展定律來描述,即模型性能大致隨著模型大小、數(shù)據(jù)大小和總運(yùn)算量的增加而提高[60]。GPT-3[8]和PaLM[26]通過將模型大小分別增加到1750億和5400億來探索擴(kuò)展定理的極限。然而,現(xiàn)實(shí)中的計(jì)算資源通常是有限的,研究者開始探索模型大小、數(shù)據(jù)大小和模型計(jì)算量之間的最佳配置關(guān)系[61-62]。Hoffmann等[61]提出了Chinchilla縮放定律,即當(dāng)可用計(jì)算資源增加時(shí),模型大小和數(shù)據(jù)量大小應(yīng)當(dāng)?shù)缺壤鲩L。此外,預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量極大影響大模型的性能,因此在擴(kuò)展預(yù)訓(xùn)練數(shù)據(jù)庫時(shí),數(shù)據(jù)收集和清洗策略相當(dāng)重要。對(duì)大模型擴(kuò)展定理的研究為大模型訓(xùn)練過程提供了較為直觀的理解,使得大模型在訓(xùn)練過程中的表現(xiàn)更加有跡可循。3.2大模型的涌現(xiàn)能力大模型的涌現(xiàn)能力是指在小模型中不存在但在大模型中出現(xiàn)的能力。即當(dāng)模型規(guī)模超過某個(gè)閾值后才能被觀測到的能力。這是區(qū)分大模型與以前的預(yù)訓(xùn)練模型最顯著的特征之一。模型規(guī)模達(dá)到一定水平時(shí),模型性能顯著提高,類似于物理學(xué)中的相變現(xiàn)象,是一種量變引起質(zhì)變的過程。以下將簡單介紹代表性的LLM涌現(xiàn)能力。上下文學(xué)習(xí)。上下文學(xué)習(xí)能力首先出現(xiàn)在GPT-3模型中。通過輸入自然語言指令,GPT-3可以以完成輸入文本的單詞序列預(yù)測的方式生成期望的輸出,無需額外的訓(xùn)練。逐步推理。小語言模型通常難以解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)問題和代碼生成。通過采用“思維鏈”推理策略[15],LLM可以利用包含中間推理步驟的提示機(jī)制解決這類任務(wù),這種能力可能來自于對(duì)代碼的訓(xùn)練。合適的任務(wù)指令或上下文學(xué)習(xí)策略可以激發(fā)大模型的能力。例如,通過恰當(dāng)?shù)淖匀徽Z言描述任務(wù),對(duì)LLM進(jìn)行指令微調(diào),可以提高模型在新任務(wù)上的泛化能力;思維鏈提示有助于模型解決復(fù)雜的邏輯推理和數(shù)學(xué)運(yùn)算任務(wù)。大模型表現(xiàn)出的涌現(xiàn)能力是其解決復(fù)雜任務(wù)的關(guān)鍵,也是實(shí)現(xiàn)通用統(tǒng)一模型的基礎(chǔ)。4大模型發(fā)展趨勢(shì)大模型的快速發(fā)展為人工智能的研究和應(yīng)用帶來了新的機(jī)遇和方向。然而,大模型研究也面臨一些潛在的問題和挑戰(zhàn)。本節(jié)將介紹大模型所面臨的挑戰(zhàn)性問題以及未來的發(fā)展方向。大模型采用深度神經(jīng)網(wǎng)絡(luò)架構(gòu),但其可解釋性較差,難以對(duì)模型的訓(xùn)練過程和推理結(jié)果進(jìn)行有效的跟蹤和解釋,在實(shí)際應(yīng)用中面臨安全問題,在可靠性要求較高的領(lǐng)域(如自動(dòng)駕駛、AI醫(yī)療)存在巨大風(fēng)險(xiǎn)。此外,研究者對(duì)大模型的涌現(xiàn)能力產(chǎn)生機(jī)制仍不清楚。因此,關(guān)于大模型原理和能力的理論研究是一個(gè)重要方向,對(duì)大模型的實(shí)際應(yīng)用和下一代大模型的發(fā)展至關(guān)重要。隨著大模型參數(shù)規(guī)模的不斷增大,由模型規(guī)模帶來的性能提升出現(xiàn)邊際遞減效應(yīng)。此外,更大的模型導(dǎo)致了更高的訓(xùn)練成本,包括算力、數(shù)據(jù)和更加復(fù)雜的訓(xùn)練過程。因此,開發(fā)更系統(tǒng)、經(jīng)濟(jì)的預(yù)訓(xùn)練框架以優(yōu)化大模型訓(xùn)練過程變得尤為重要。大模型訓(xùn)練過程需要考慮模型有效性、效率優(yōu)化和訓(xùn)練穩(wěn)定性等因素。此外,還需要更靈活的硬件支持和資源調(diào)度機(jī)制,以便更好地組織和利用計(jì)算集群中的資源。大模型訓(xùn)練所需的大數(shù)據(jù)涉及隱私、倫理問題。例如,訓(xùn)練數(shù)據(jù)被篡改、破壞、泄露或非法獲取,將會(huì)對(duì)公共安全和個(gè)人隱私造成嚴(yán)重?fù)p害。此外,訓(xùn)練數(shù)據(jù)中可能存在粗俗、暴力、色情等內(nèi)容,導(dǎo)致大模型存在偏見問題。因此,大模型的安全和倫理問題也是一個(gè)相當(dāng)重要的研究方向。大模型的發(fā)展為探索AI應(yīng)用鋪平了道路,揭示了許多前景并迎來了前所未有的機(jī)遇。大模型有可能引領(lǐng)未來幾年的技術(shù)變革,帶來新的產(chǎn)業(yè)格局。如圖4所示,大模型在文本、代碼和圖像等領(lǐng)域已經(jīng)得到廣泛應(yīng)用,開始取代文字編輯、記錄等簡單重復(fù)的工作崗位,輔助開發(fā)者編寫程序,進(jìn)行AI藝術(shù)創(chuàng)作等。在電子信息、生物醫(yī)學(xué)等領(lǐng)域,大模型可以加快研究進(jìn)程;大模型與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展可以幫助企業(yè)提升智能化水平,推進(jìn)實(shí)體經(jīng)濟(jì)智能化發(fā)展。此外,大模型發(fā)展還將為具身智能帶來變革。具身智能是有身體并支持物理交互的智能體,它能夠像人一樣與真實(shí)物理世界進(jìn)行互動(dòng),并具備自主決策、規(guī)劃和主動(dòng)感知等能力。大模型可將多模態(tài)知識(shí)遷移至具身推理中,使機(jī)器人執(zhí)行特定指令,真正具備具身智能。圖4大模型的應(yīng)用前景Fig.4Applicationprospectoflargemodel5結(jié)束語大模型已成為人工智能領(lǐng)域的一個(gè)重要發(fā)展方向。從其發(fā)展歷程來看,先后經(jīng)歷了機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、預(yù)訓(xùn)練模型和大規(guī)模預(yù)訓(xùn)練模型4個(gè)階段。在NLP和CV領(lǐng)域,大模型的發(fā)展不斷刷新相關(guān)任務(wù)的性能,隨著大模型參數(shù)量不斷突破新高,研究者發(fā)現(xiàn)了大模型區(qū)別于普通預(yù)訓(xùn)練模型的新能力,稱之為大模型的涌現(xiàn)能力,這是大模型能夠勝任復(fù)雜任務(wù)的關(guān)鍵。此外,大模型的發(fā)展也面臨許多挑戰(zhàn)性問題,例如模型可解釋性差、訓(xùn)練成本高、存在隱私和倫理風(fēng)險(xiǎn)等。未來的大模型參數(shù)規(guī)模發(fā)展可能進(jìn)入平臺(tái)期,研究者將更加關(guān)注大模型開發(fā)架構(gòu)的優(yōu)化以及大模型產(chǎn)業(yè)落地的相關(guān)研究,以充分發(fā)揮大模型的能力。
大模型基本概念4o
大模型是通過“大數(shù)據(jù)+大算力+強(qiáng)算法”相結(jié)合來模擬人類思維和創(chuàng)造力的人工智能算法延伸閱讀:大模型及其在材料科學(xué)中的應(yīng)用與展望人工智能(Artificialintelligence,AI)在各領(lǐng)域中的廣泛應(yīng)用從科研熱點(diǎn)、社會(huì)關(guān)切、政策支持等維度都體現(xiàn)出極大的研究與應(yīng)用價(jià)值[1].隨著人工智能的土壤——數(shù)據(jù)的指數(shù)級(jí)增長以及計(jì)算能力的躍升,以深度學(xué)習(xí)為代表的突破性人工智能算法不斷涌現(xiàn)[2],逐漸代替?zhèn)鹘y(tǒng)的機(jī)器學(xué)習(xí)和基于規(guī)則的方法,并在眾多場景下得以大范圍實(shí)際應(yīng)用[3?4],如人臉識(shí)別[5]、自動(dòng)駕駛[6]、文本生成[7]等.2022年底,OpenAI公司發(fā)布ChatGPT應(yīng)用并迅速進(jìn)入大眾的視野[8],推出僅兩個(gè)月后月活躍用戶就已超一億,成為歷史上用戶群增長最快的消費(fèi)應(yīng)用.基于語言大模型開發(fā)的人工智能產(chǎn)品ChatGPT被認(rèn)為是人工智能技術(shù)的新突破,吸引了社會(huì)各界的重點(diǎn)關(guān)注,引發(fā)了國內(nèi)外新一輪人工智能產(chǎn)品應(yīng)用落地.可以這樣說,以ChatGPT為時(shí)間起點(diǎn),人工智能正式進(jìn)入“大模型時(shí)代”,大模型也正在重塑各種任務(wù)并在眾多復(fù)雜的下游任務(wù)中取得了不俗的成績[9?11].1大模型概述1.1大模型大模型(Largemodels,LMs)通常指具有數(shù)十億、百億甚至更多參數(shù)級(jí)別的深度神經(jīng)網(wǎng)絡(luò)模型[12],其訓(xùn)練所需數(shù)據(jù)量遠(yuǎn)大于一般的深度學(xué)習(xí)算法模型(圖1).大模型也可稱為大規(guī)模預(yù)訓(xùn)練模型(Pretrainedmodels,PMs)或基礎(chǔ)模型(Foundationmodels,F(xiàn)Ms).通常而言,這種參數(shù)規(guī)模大、訓(xùn)練成本高的模型采用自監(jiān)督學(xué)習(xí)范式(Self-supervisedlearning,SSL)獲取強(qiáng)大且通用的數(shù)據(jù)表示,其本身并不針對(duì)特定的下游任務(wù),而是獲得對(duì)于訓(xùn)練數(shù)據(jù)的“理解”與“掌握”[13].“大模型應(yīng)用”表示將預(yù)訓(xùn)練得到的大模型通過遷移學(xué)習(xí)將獲得的知識(shí)整合、遷移到各個(gè)下游具體任務(wù),并根據(jù)業(yè)務(wù)需求集成封裝后的整體解決方案.以ChatGPT為例,其本身應(yīng)被定義為基于語言大模型的生成式聊天應(yīng)用,它是在GPT(Generativepre-trainedtransformers)系列預(yù)訓(xùn)練語言大模型的基礎(chǔ)上經(jīng)過復(fù)雜精調(diào)得到的商業(yè)化落地產(chǎn)品[14].圖1人工智能發(fā)展:從機(jī)器學(xué)習(xí)到大模型Fig.1Developmentofartificialintelligence:frommachinelearningtolargemodels1.2大模型相關(guān)技術(shù)1.2.1深度無監(jiān)督表征學(xué)習(xí)大模型的建立事實(shí)上是大規(guī)模深度無監(jiān)督表征學(xué)習(xí)的結(jié)果[15].通過大量數(shù)據(jù)預(yù)訓(xùn)練后,將模型參數(shù)作為下游任務(wù)的初始化參數(shù)并在相應(yīng)任務(wù)的目標(biāo)數(shù)據(jù)上進(jìn)行微調(diào)訓(xùn)練的策略稱之為預(yù)訓(xùn)練–微調(diào)策略[16].這種學(xué)習(xí)策略遵循著遷移學(xué)習(xí)的思想[17],在自然語言處理任務(wù)中首先獲得成功并逐漸影響計(jì)算機(jī)視覺任務(wù)相關(guān)方法的設(shè)計(jì),視覺自注意力模型(Visiontransformer,ViT)[18]及相關(guān)變體模型[19]也憑借遷移學(xué)習(xí)的思想將圖像分類[20]、目標(biāo)檢測[21]、語義分割[22]等視覺任務(wù)的成績提升到史無前例的高度.從預(yù)訓(xùn)練階段數(shù)據(jù)的標(biāo)注有無出發(fā),預(yù)訓(xùn)練可以分為有監(jiān)督預(yù)訓(xùn)練、半監(jiān)督預(yù)訓(xùn)練和無監(jiān)督預(yù)訓(xùn)練[23].為實(shí)現(xiàn)無監(jiān)督預(yù)訓(xùn)練,解決模型訓(xùn)練時(shí)的標(biāo)注受限問題,自監(jiān)督學(xué)習(xí)方法通過無監(jiān)督代理任務(wù)預(yù)訓(xùn)練和有監(jiān)督下游任務(wù)微調(diào)兩階段的結(jié)合,平衡標(biāo)注數(shù)量和模型精度,取得了匹敵有監(jiān)督預(yù)訓(xùn)練模型的效果[24].在大模型建立之后,其下游應(yīng)用以自監(jiān)督學(xué)習(xí)范式為技術(shù)基礎(chǔ).自監(jiān)督學(xué)習(xí)旨在使深度神經(jīng)網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度汽車維修與租賃業(yè)務(wù)管理服務(wù)合同2篇
- 四年級(jí)下學(xué)期教學(xué)計(jì)劃集錦五篇
- 小學(xué)三年級(jí)上冊(cè)英語教案
- 元旦晚會(huì)主持稿集合15篇
- 寫給老師的道歉信模板集合八篇
- 秋天的校園作文400字范文(10篇)
- 幼兒園春季學(xué)期工作總結(jié)5篇
- 我的愿望小學(xué)作文15篇
- 畢業(yè)實(shí)習(xí)總結(jié)(集合15篇)
- 工程居間協(xié)議協(xié)議書3篇
- 延期留用崗位協(xié)議書模板
- 借條的正規(guī)模板(2024版)
- 2024年汽車行業(yè)社媒營銷趨勢(shì)分析報(bào)告
- 人教PEP版小學(xué)英語六年級(jí)上冊(cè)Unit1-6單元單元檢測試卷(含聽力材料)
- 銷售合同編號(hào)規(guī)則(2024版)
- 2024至2030年中國生活權(quán)益卡券行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略研究報(bào)告
- 2024-2025學(xué)年度第一學(xué)期小學(xué)一年級(jí)語文教學(xué)計(jì)劃及進(jìn)度表
- 中國腦卒中防治指導(dǎo)規(guī)范(2021 年版)
- 土地生態(tài)學(xué)智慧樹知到期末考試答案章節(jié)答案2024年東北農(nóng)業(yè)大學(xué)
- 新概念第二冊(cè)課文和單詞
- 吾悅廣場商場開業(yè)儀式開業(yè)慶典周年慶活動(dòng)方案
評(píng)論
0/150
提交評(píng)論