大型語言模型行業(yè)圖譜_第1頁
大型語言模型行業(yè)圖譜_第2頁
大型語言模型行業(yè)圖譜_第3頁
大型語言模型行業(yè)圖譜_第4頁
大型語言模型行業(yè)圖譜_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

研究報告(2024年第3期總第35期) 2024年01月26日大型語言模型行業(yè)圖譜1科創(chuàng)金融研究中朱雅姝 劉碧波【摘要】行業(yè)圖譜研究是本中心科技成果轉(zhuǎn)化研究的一項子課題,目標(biāo)定位于清晰理解前沿科技成果的技術(shù)核心、科創(chuàng)企業(yè)的技術(shù)競爭力及科研工作者的研究進(jìn)度,從而助力科技成果轉(zhuǎn)化效率的提升。行業(yè)圖譜研究將以系列形式展開,選取國家戰(zhàn)略重點科技領(lǐng)域的商業(yè)應(yīng)用場景逐一進(jìn)行,時效性較強(qiáng)。本報告為行業(yè)圖譜研究之計算機(jī)科學(xué)系列中的課題:大型語言模型(ChatGPT)行業(yè)圖譜。ChatGPT的成功引發(fā)了全球?qū)Υ笮腿斯ぶ悄苣P偷臐夂衽d趣,加速了學(xué)術(shù)界和商業(yè)界的發(fā)展。自2017年起,美國在戰(zhàn)略層面高度重視人工智能,將其應(yīng)用于經(jīng)濟(jì)、文化和社會福1感謝資本市場與公司金融研究中心的實習(xí)生許喜遠(yuǎn)同學(xué)對本報告的助研工作。許喜遠(yuǎn)同學(xué)是清華大學(xué)醫(yī)學(xué)院2022級博士。祉等眾多領(lǐng)域。到2023年,中國也迅速跟進(jìn),采用自主研發(fā)的技術(shù)ChatGPT支持的重點。ChatGPT的發(fā)展可分為五個研究階段,從初期的專家系統(tǒng)演變?yōu)榛P?,它憑借大規(guī)模參數(shù)和創(chuàng)新的“提示語”概念,顯著提升了理解和生成自然語言的能力,并在情感分析、機(jī)器翻譯等多個領(lǐng)域得到應(yīng)用。技術(shù)上,ChatGPT的人類反饋強(qiáng)化學(xué)習(xí),實現(xiàn)了語言生成能力的顯著提升,增強(qiáng)了模型對新指令的適應(yīng)性,超越了僅依賴于參數(shù)量增加的限制。成功的關(guān)鍵因素包括OpenAI的戰(zhàn)略轉(zhuǎn)型、技術(shù)突破、巨ChatGPT的成功基礎(chǔ)。ChatGPT的先進(jìn)技術(shù),在準(zhǔn)確性、多任務(wù)處理和泛化能力上占據(jù)市場優(yōu)勢,但面臨著時效性不足、高成本和專業(yè)領(lǐng)GoogleMeta在技術(shù)研發(fā)及商業(yè)應(yīng)用上保持領(lǐng)先地位。戰(zhàn)略上,ChatGPTAPI和訂閱GoogleB端市場。在中國,國內(nèi)的通用大型語言模型正處于發(fā)展階段,公司如百度和華為正在追趕國際趨勢,但在數(shù)據(jù)、算力和工程化實施方面面臨挑戰(zhàn)。語言大型模型的國際研發(fā)現(xiàn)狀呈現(xiàn)明顯的區(qū)域差異。在國際領(lǐng)域,以愛丁堡大學(xué)的GeoffreyHintonMikolov、斯坦福大學(xué)的ChrisManning和QuocLe、以及多倫多大學(xué)的IlyaSutskever等人為代表,他們開發(fā)的技術(shù)位于行業(yè)前沿,具有重大的創(chuàng)新性。而在國內(nèi),清華大學(xué)計算機(jī)系的唐杰教授、自然語言處理與社會人文計算實驗室的孫茂松、交互式人工智能課題組的朱小燕教授、智能產(chǎn)業(yè)研究院的張亞勤以及復(fù)旦大學(xué)的邱錫鵬教授團(tuán)隊、哈爾濱工業(yè)大學(xué)的王曉龍教授等,作為國內(nèi)在語言大模型研發(fā)方面的頂尖技術(shù)代表,他們在自然語言處理AI的底層技術(shù)研究領(lǐng)域也取得了新的突破。大型語言模型改變了數(shù)字產(chǎn)業(yè)的人機(jī)交互方式,提升了軟件的用戶友好性和功能性。它們在降低企業(yè)應(yīng)用構(gòu)建成本、推動新生態(tài)平臺發(fā)展方面扮演關(guān)鍵角色,并在對話式AI領(lǐng)域顯著提升了產(chǎn)品的智能和感知能力。這些模型還促進(jìn)了多行業(yè)的功能升級和生態(tài)整合。ChatGPT及類似大型AI模型在全球科技界的崛起,盡管其帶來了商業(yè)與創(chuàng)新價值,卻也引發(fā)了眾多安全與倫理問題,如對人類角色的替代、數(shù)據(jù)偏見和隱私泄露等,導(dǎo)致業(yè)界和科研人員對AI發(fā)展提出質(zhì)疑和暫停的呼聲。為此,采用了如基于人類反饋的強(qiáng)化學(xué)習(xí)和監(jiān)管框架等手段減輕這些風(fēng)險。通用人工智能(ArtificialGeneralIntelligence,AGI)不僅提高了生產(chǎn)力和經(jīng)濟(jì)增長,還可能改變?nèi)祟惖乃季S模式和文化傳統(tǒng),推動相關(guān)學(xué)科發(fā)展。通過本報告,我們旨在為ChatGPT技術(shù)和產(chǎn)業(yè)的發(fā)展提供參考和引導(dǎo),共同推動產(chǎn)業(yè)合作,促進(jìn)行業(yè)健康快速發(fā)展。目錄一、ChatGPT技術(shù)發(fā)基礎(chǔ) 4(一)然語處理展歷史 4(二)規(guī)模訓(xùn)練模型的術(shù)發(fā)展 7二、OpenAIChatGPT術(shù)發(fā)展程 8(一)ChatGPT:生式AI里程碑 8(二)ChatGPT核技:人類饋強(qiáng)學(xué)習(xí) 9(三)OpenAIChatGPT功要素析 11三、國外主大語模型技對比 12(一)ChatGPT的勢 12(二)ChatGPT的勢 14(三)國自通用大語言型 16(四)內(nèi)外言大對比 21(五)言大型研術(shù)國內(nèi)主要究機(jī)代表性果 24(六)模型練:公司硬資源面對比 26(七)內(nèi)外要大模型研路徑技術(shù)比 27(八)內(nèi)外要大模型廠商業(yè)徑對比 28四、大言模落地用對數(shù)產(chǎn)業(yè)響 29(一)用搜引擎局 31(二)礎(chǔ)辦軟件新 32(三)話式AI入高知、情商腦” 33(四)業(yè)服與垂域應(yīng)用 34(五)ChatGPTPlugins發(fā)生態(tài)設(shè)開關(guān) 35五、ChatGPT來的險與挑戰(zhàn) 36六、全人工能時來臨:體能與社化的新局 37七、專術(shù)語析 39參考文獻(xiàn) 41圖表目錄圖1-1 大規(guī)模預(yù)訓(xùn)言模型展歷及重念 7圖2-1 生成式AI發(fā)展歷程與ChatGPT突出力 9圖2-2 ChatGPT能現(xiàn)解析 10圖2-3 資金投入與策略為ChatGPT成功來至關(guān)要的響 11圖3-1 通用基礎(chǔ)大模型的值與研卡點 17圖3-2 中國大語言產(chǎn)業(yè)價鏈 19圖3-3 國內(nèi)外主要言模型發(fā)路與技比 27圖3-4 國內(nèi)外主要言模型商商路徑比 28圖4-1 大語言模型變數(shù)字業(yè)生態(tài) 29圖4-2 搜索引擎與言模型合情況 30圖4-3 ChatGPT應(yīng)基礎(chǔ)辦軟件 32圖4-4 大語言模型話式AI結(jié)合 33圖4-5 大語言模型于企業(yè)務(wù)及直領(lǐng)域 34圖4-6 ChatGPT過Plugins構(gòu)建超級用生態(tài) 35表1-1 知識表示和方式的進(jìn) 5表3-1 ChatGPT存在足的示例 15表3-2 大規(guī)模文本練模型比表 21表3-3 代碼預(yù)訓(xùn)練對比表 23表3-4 語言大模型技術(shù)國外主研究及代表成果 2420221130日,OpenAI公司推出了一款全新的對話式通用ChatGPT(GPTGenerativePretrainedTransformer)。據(jù)報道,僅在幾天之內(nèi),該工具的注冊用戶就已經(jīng)1001億人。這一驚人的成績引發(fā)了全網(wǎng)的熱議,成為歷史上增長最快的消費者應(yīng)用程序之一,引發(fā)了人們對于未來哪些工作會因此消失的討論,并引領(lǐng)了人工智能領(lǐng)域新的技術(shù)浪潮。ChatGPT之所以有這么多活躍用戶,是因為它通過學(xué)習(xí)和理解人類語言,以對話的形式與人類進(jìn)行交流,其交互方式更加自然和準(zhǔn)確,大大改變了人們對于聊天機(jī)器人的印象,從“人工智障”到“有趣”的印象轉(zhuǎn)變。此外,ChatGPT還能夠根據(jù)用戶的需求進(jìn)行機(jī)器翻譯、文案撰寫、代碼撰寫等工作。ChatGPT的成功推出引起了大模型構(gòu)建領(lǐng)域的關(guān)注,學(xué)術(shù)界和企業(yè)界紛紛跟進(jìn),啟動研制自己的大模型。在OpenAIChatGPTChatGPTBing,并計劃將ChatGPT集成到Office辦公套件中。谷歌也迅速推出了類似的Bard以與之抗衡。此外,國內(nèi)的百度、阿里巴巴、華為、騰訊、網(wǎng)ChatGPT模型的研發(fā)。ChatGPT引起了國家戰(zhàn)略層面的關(guān)注。美國在人工智能(ArtificialIntelligence,AI)領(lǐng)域有著明確和綜合的戰(zhàn)略方針,涵蓋了經(jīng)濟(jì)、國防和社會福祉等多個方面。在美國,多個政府機(jī)構(gòu)已推出關(guān)鍵政策倡議,以加速人工智能的研究與發(fā)展。國家科學(xué)與技術(shù)委員會(NationalScienceandTechnologyCouncil,NSTC)2016年推出了《全國人工智能研究與發(fā)展戰(zhàn)略計劃》,為聯(lián)邦人工智能研發(fā)工作奠定了基礎(chǔ)。這一努力在2019了行政命令,要求聯(lián)邦機(jī)構(gòu)優(yōu)先考慮人工智能投資。從立法方面來看,美國國會于20202017年的《人工智能未來2020國家科學(xué)基金會(NationalScienceFoundation,NSF)也做出了重要的1.4億美元用于五年內(nèi)建立五個新的人工智能研AI技術(shù)的不斷發(fā)展,不排除將來某些先進(jìn)模型或算法被納入為戰(zhàn)略資源。這樣的決策會受到多種因素影響,包括但不限于該技術(shù)的成熟度、其在關(guān)鍵應(yīng)用(如國防、健康或信息安全)中的表現(xiàn)、以及與國家利益和全球政治環(huán)境的相互作用。2023224日,科技部部長王志剛表示:“ChatGPT在自然語言理解、自然語言處理等方面有進(jìn)步的地方,同時在算法、數(shù)據(jù)、算力上進(jìn)行了有效結(jié)合?!笨萍疾扛咝录夹g(shù)司司長陳家昌在ChatGPT相關(guān)提問時也表示,ChatGPT最近形成了一種現(xiàn)象級的應(yīng)用,表現(xiàn)出很高的人機(jī)交互水平,表現(xiàn)出自然語言的大模型已經(jīng)具備了面向通用人工智能的一些特征,在眾多行業(yè)領(lǐng)域有著廣泛的應(yīng)用潛力。這也標(biāo)志著ChatGPT相關(guān)技術(shù)有可能會成為國家戰(zhàn)略支持的重點。從技術(shù)創(chuàng)新角度,ChatGPT是一個聚焦于對話生成的大語言模型,能夠根據(jù)用戶的文本描述和歷史對話產(chǎn)生相應(yīng)的智能回復(fù)。GPT通過學(xué)習(xí)大量網(wǎng)絡(luò)已有文本數(shù)據(jù)(Wikipedia、Reddit對話)獲得了像人類一樣流暢對話的能力,盡管有時生成的回復(fù)并不符合人類預(yù)期。ChatGPT的成功推出和迅速發(fā)展,是人工智能領(lǐng)域技術(shù)和應(yīng)用的一大進(jìn)步,為未來智能化和人機(jī)交互提供了更為廣泛和深入的應(yīng)用空間。同時,ChatGPT所涉及的技術(shù)和應(yīng)用也呈現(xiàn)出多樣性和復(fù)雜性,需要技術(shù)和商業(yè)界的共同探索和開發(fā),以實現(xiàn)更好的技術(shù)創(chuàng)新和商業(yè)價值。本報告首先回顧了自然語言處理的發(fā)展歷史以及大規(guī)模預(yù)訓(xùn)練語言模型的技術(shù)發(fā)展歷程,接著詳細(xì)分析了ChatGPT的技術(shù)發(fā)展歷程、相關(guān)技術(shù)、未來技術(shù)發(fā)展方向,然后探討了ChatGPT劣勢、應(yīng)用前景以及帶來的風(fēng)險與挑戰(zhàn),最后對未來自然語言發(fā)展的方向提出了見解。一、ChatGPT的技術(shù)研發(fā)基礎(chǔ)ChatGPTOpenAI開發(fā)的一種基于大規(guī)模預(yù)訓(xùn)練生成式語言模型的人工智能(ArtificialIntelligenceAI)系統(tǒng)。它借鑒了生成預(yù)訓(xùn)練Transformer模型(GenerativePre-trainedTransformer,GPT)系列模型的技術(shù)[1],旨在理解和生成自然語言,提供與人類相似的對話體驗。自然語言處理(NaturalLanguageProcessing,NLP)是計算機(jī)科學(xué)和人工智能領(lǐng)域的一個關(guān)鍵子領(lǐng)域,主要研究如何讓計算機(jī)理解和生成人類語言。在過去的幾十年中,NLP技術(shù)經(jīng)歷了從基于規(guī)則的方法到統(tǒng)計學(xué)習(xí)方法再到深度學(xué)習(xí)方法的轉(zhuǎn)變。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,尤其是預(yù)訓(xùn)練語言模型(GPT系列)的出現(xiàn),NLP領(lǐng)域取得了顯著進(jìn)展。(一)自然語言處理的發(fā)展歷史自然語言處理是一門涉及計算機(jī)科學(xué)、人工智能、語言學(xué)等多個領(lǐng)域的交叉學(xué)科。從其歷史發(fā)展來看,自然語言處理經(jīng)歷了多次重要的研究范式轉(zhuǎn)變。早期的自然語言處理方法是基于小規(guī)模專家知識的,這些方法需要手動設(shè)計規(guī)則和知識庫來解決自然語言歧義性和抽象性等問題,但這種方法難以處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)。后來,基于機(jī)器學(xué)習(xí)的方法開始興起,使得計算機(jī)可以通過學(xué)習(xí)樣本數(shù)據(jù)來進(jìn)行自然語言處理,這種方法在一些特定任務(wù)上表現(xiàn)良好,但在處理復(fù)雜任務(wù)時,需要大量的訓(xùn)練數(shù)據(jù)和特征工程,難以取得更好的效果。隨著深度學(xué)習(xí)的興起,基于深度神經(jīng)網(wǎng)絡(luò)的自然語言處理方法開始流行,這些方法通過多層神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和語義表示,可以處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù),但需要更多的計算資源和標(biāo)注數(shù)據(jù)。最近,基于大規(guī)模預(yù)訓(xùn)練語言模型的自然語言處理方法成為研究熱點,這種方法可以通過大規(guī)模語料庫的預(yù)訓(xùn)練來學(xué)習(xí)通用的語言表示和知識表示,從而可以用較少的標(biāo)注數(shù)據(jù)解決多個任務(wù),并取得了較好的效果。知識表示方式表示方式的精確度知識調(diào)用知識表示方式表示方式的精確度知識調(diào)用方式調(diào)用方式的自然度研究領(lǐng)域代表應(yīng)用代表公司結(jié)構(gòu)化知識庫高機(jī)器語言低數(shù)據(jù)庫企業(yè)管理系統(tǒng)Oracle關(guān)鍵詞搜索中關(guān)鍵詞搜索中互聯(lián)網(wǎng)搜索引擎Google大規(guī)模預(yù)訓(xùn)練語言模型高自然語言高自然語言處理聊天機(jī)器人、智能問答系統(tǒng)OpenAIMicrosoft、百度等2050年代(1-1所示),早期研究主要集中在語言理解和語言生成兩個方面。語言理解主要是將自然語言轉(zhuǎn)換為計算機(jī)可處理的形式,例如將句子分詞、詞性標(biāo)注、句法分析等;語言生成則是將計算機(jī)處理結(jié)果轉(zhuǎn)換為自然語言,例如生成自然語言回答、摘要等。早期的自然語言處理方法主要是基于規(guī)則和專家知識的,如語法規(guī)則、詞典和邏輯規(guī)則等,這些方法局限于小規(guī)模任務(wù),而隨著數(shù)據(jù)量和任務(wù)復(fù)雜度的不斷增加,基于規(guī)則的方法逐漸失去了優(yōu)勢。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,自然語言處理研究進(jìn)入了新的階段。機(jī)器學(xué)習(xí)方法的興起為自然語言處理帶來了新的思路,使得計算機(jī)可以從數(shù)據(jù)中自動學(xué)習(xí)語言知識和規(guī)律。深度學(xué)習(xí)的興起更是為自然語言處理帶來了巨大的變革,通過神經(jīng)網(wǎng)絡(luò)的特征提取和語義表示,深度學(xué)習(xí)方法可以有效地處理自然語言歧義性和抽象性等問題,取得了很好的效果。近年來,隨著大規(guī)模預(yù)訓(xùn)練語言模型的興起,自然語言處理的研究進(jìn)入了新的階段。基于大規(guī)模預(yù)訓(xùn)練語言模型的自然語言處理方法,如BERT(BidirectionalEncoderRepresentationsfromTransformers)、GPT等,通過預(yù)訓(xùn)練模型來學(xué)習(xí)通用的語言表示和知識表示,可以用較少的標(biāo)注數(shù)據(jù)解決多個任務(wù),并取得了極好的效果。這種方法的出現(xiàn),使得自然語言處理能夠處理更多的語言任務(wù)和應(yīng)用,如機(jī)器翻譯、問答系統(tǒng)、文本分類、情感分析等[2]。在自然語言處理的發(fā)展過程中,還涌現(xiàn)了很多重要的技術(shù)和算法,如詞嵌入、文本向量化、注意力機(jī)制、序列模型等。這些技術(shù)和算法為自然語言處理提供了重要的基礎(chǔ)和支撐,使得自然語言處理能夠不斷進(jìn)步和發(fā)展。目前,自然語言處理在人工智能領(lǐng)域扮演著越來越重要的角色,也是人工智能應(yīng)用的重要組成部分。自然語言處理的應(yīng)用領(lǐng)域非常廣泛,如搜索引擎、智能客服、語音識別、機(jī)器翻譯、情感分析、智能寫作等。尤其是在聊天機(jī)器人、智能問答系統(tǒng)等人機(jī)對話領(lǐng)域,自然語言處理技術(shù)的發(fā)展對于提高機(jī)器理解和表達(dá)能力,使得機(jī)器與人之間的對話更加自然流暢,具有重要的意義。隨著自然語言處理技術(shù)的不斷發(fā)展和應(yīng)用,它將在更多的領(lǐng)域和行業(yè)產(chǎn)生重要影響。圖1-1大規(guī)模預(yù)訓(xùn)練語言模型發(fā)展歷程及重要概念(二)大規(guī)模預(yù)訓(xùn)練語言模型的技術(shù)發(fā)展大規(guī)模預(yù)訓(xùn)練語言模型(大模型)是ChatGPT1-1展歷程。2018年,OpenAIGPT處理領(lǐng)域的“預(yù)訓(xùn)練”時代。然而,GPT模型并沒有引起太大的關(guān)注,反倒是Google提出的BERT模型更為受歡迎。盡管如此,OpenAI繼續(xù)沿用第一代GPT模型的技術(shù)路線,陸續(xù)發(fā)布了GPT-2和GPT-3模型[3]。GPT-31,750億個參數(shù),同時提出了“提示語”(Prompt)的概念。只要提供具體任務(wù)的提示語,即使不對模型進(jìn)行調(diào)整,它也能夠完成該任務(wù)。例如,輸入“我太喜歡ChatGPT了,這句話的情感是 ”,GPT-3就能夠輸出結(jié)果“褒義”如果在輸入中再提供一個或多個示例,那么任務(wù)完成的效果會更好,這也被稱為“語境學(xué)習(xí)”(In-contextLearning)[4]。更詳細(xì)的技術(shù)細(xì)節(jié)可以參考相關(guān)的綜述文章。但是,通過對GPT-3模型能力的仔細(xì)評估,發(fā)現(xiàn)大模型并不能真正克服深度學(xué)習(xí)模型魯棒性差、可解釋性弱、推理能力缺失的問題,在深層次語義理解和生成上與人類認(rèn)知水平還相去甚遠(yuǎn)。直到ChatGPT的問世,才徹底改變了人們對于大模型的認(rèn)知。二、OpenAIChatGPT技術(shù)發(fā)展歷程(一)ChatGPT:生成式AI里程碑相較于先前的生成式對話解決方案,ChatGPT(ChatGenerativePre-trainedTransformer)在連續(xù)對話范圍、內(nèi)容生成質(zhì)量、語義識別及邏輯推斷方面均表現(xiàn)出顯著優(yōu)越性,超越了市場對聊天機(jī)器人的常規(guī)預(yù)期,成為生成式人工智能(AIGeneratedContent,AIGC)的關(guān)鍵里程碑(如圖2-1所示)。該模型為一種生成式預(yù)訓(xùn)練大語言模型,其中,“Chat”表征其交互性功能,“Generative”則突顯其生成式算法特性。值得注意的是,生成式算法多年來受限于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)2017Transformer架構(gòu)的誕生AI在預(yù)訓(xùn)練的Transformer框架下獲得了顯著發(fā)展。該模型不僅催生了自然語言處理(NaturalLanguageProcessing,NLP)、計算機(jī)視覺(ComputerVision,CV)以及多模態(tài)領(lǐng)域的通用大模型的快速進(jìn)化,而且其幾何級數(shù)的參數(shù)量增長和多元化訓(xùn)練策略的探索標(biāo)志著大型通用模型正在突破NLP領(lǐng)域長期以小型模型為主導(dǎo)的傳統(tǒng)發(fā)展模式[5]。圖2-1生成式AI發(fā)展歷程與ChatGPT的突出能力(二)ChatGPT核心技術(shù):人類反饋強(qiáng)化學(xué)習(xí)在基于GPT-3.5超大預(yù)訓(xùn)練語言模型的強(qiáng)大基礎(chǔ)上,ChatGPT通過人性化需求目標(biāo)的模型優(yōu)化,實現(xiàn)了語言生成能力的顯著提升。具有巨量參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)的GPT-3.5語言生成潛能的高度復(fù)雜“大腦”。利用人類反饋強(qiáng)化學(xué)習(xí)(Reinforcementlearningwithhumanfeedback,RHLF)的技術(shù)[6],我們對模型進(jìn)行了指令精調(diào),以激活其多維能力,并確保其輸出能夠符合人類的需求、偏好和價值觀,進(jìn)一步增強(qiáng)了模型應(yīng)對全新指令的適應(yīng)性(2-2所示)。值得注意的是,ChatGPT上下文理解等方面的優(yōu)勢,并非單純依賴于參數(shù)量的增加,而是一種參數(shù)量達(dá)到一定規(guī)模后自然“涌現(xiàn)”的能力,這一“能力涌現(xiàn)”現(xiàn)象也在其他大規(guī)模預(yù)訓(xùn)練模型中得到了驗證。圖2-2ChatGPT能力實現(xiàn)解析(三)OpenAIChatGPTChatGPT的成功并非偶然,而是多因素綜合作用的結(jié)果,凸顯了戰(zhàn)略方向和執(zhí)行路徑的至關(guān)重要性。首先,OpenAI營利模式轉(zhuǎn)型,為ChatGPT這一明確商業(yè)化方向的產(chǎn)品提供了有力的市場導(dǎo)向。其次,OpenAI始終秉持實現(xiàn)安全的通用人工智能(ArtificialGeneralIntelligence,AGI)的初心,由創(chuàng)始團(tuán)隊用第一性AI域的領(lǐng)先地位(2-3所示)。圖2-3資金投入與發(fā)展策略為ChatGPT成功帶來至關(guān)重要的影響在數(shù)據(jù)方面,GPT-345TBGPT-1ChatGPT資金高達(dá)數(shù)十億美元,這些資金主要用于數(shù)據(jù)采集、模型訓(xùn)練、運(yùn)營以及人力資源。算力方面,OpenAI通過與微軟Azure的合作,動用了大約1萬塊NVIDIAA100GPU,確保模型能夠高效運(yùn)行。更不可或缺的是人才因素。ChatGPT87AI專家組成,主要畢業(yè)于斯坦福、伯克利和麻省理工等名校,其中5被評選為2023年度“AI2000全球人工智能學(xué)者”。綜上所述,ChatGPT的成功是多維度要素,包括初心、數(shù)據(jù)、資金、算力和人才,共同作用下的必然結(jié)果。三、國內(nèi)外主要大語言模型技術(shù)對比(一)ChatGPT的優(yōu)勢ChatGPT是一款開年爆款產(chǎn)品,自發(fā)布以來不足三個月,便迅速吸引了數(shù)以億計的用戶,其全面性、準(zhǔn)確性、流暢性和可玩性令人驚嘆。相較于其他產(chǎn)品和范式,ChatGPT在以下三個方面具有優(yōu)勢:相較于普通聊天機(jī)器人ChatGPT是一款聊天機(jī)器人,類似于市場上其他聊天機(jī)器人,例如微軟小冰、百度度秘等。然而,ChatGPT的回答更準(zhǔn)確、更流暢,具有更細(xì)致的推理和更高的任務(wù)完成能力。這歸功于其底座能力、思維鏈推理能力和零樣本能力。ChatGPTGPT-3.5Code-davinci-002進(jìn)行微調(diào),其規(guī)模足夠大,充分記憶了大量的知識,并具有涌現(xiàn)潛力。同時,其能夠逐步推理,打破了傳統(tǒng)的scalinglaw。此外,ChatGPT的指令微調(diào)也使其具有良好的泛化能力,可以處理未見過的任務(wù),從而提高了其通用性[7]。相較于其他大規(guī)模語言模型:ChatGPT通過更多的多輪對話數(shù)據(jù)進(jìn)行指令微調(diào),使其能夠建模對話歷史,持續(xù)與用戶交互。此外,相較于其他大規(guī)模語言模型,ChatGPT的指令微調(diào)階段采用了基于人類反饋的強(qiáng)化學(xué)習(xí),調(diào)整模型輸出的偏好,從而更符合人類預(yù)期的結(jié)果。這有助于緩解安全性和偏見問題,并使其更加耐用。同時,ChatGPTAI正循環(huán),持續(xù)增強(qiáng)自身和人類的對齊能力,輸出更安全的回復(fù)。相較于微調(diào)小模型:在ChatGPT之前,利用特定任務(wù)數(shù)據(jù)微調(diào)小模型是最常用的自然語言處理范式。然而,相較于這種微調(diào)范式,ChatGPT具有更強(qiáng)的泛化能力,在零樣本和少樣本場景下表現(xiàn)更好,甚至可以在未見過的任務(wù)上有所表現(xiàn)。例如,在ChatGPT的前身InstructGPT中,指令集中96%以上是英語,僅包含少量的其它語言。但即使在機(jī)器翻譯任務(wù)上,ChatGPT也能正確翻譯塞爾維亞語等未出現(xiàn)在指令集中的語言,這是微調(diào)小模型的范式很難實現(xiàn)的泛化能力。此外,作為大規(guī)模語言模型,ChatGPT在創(chuàng)作型任務(wù)上表現(xiàn)突出,甚至可以強(qiáng)于大多數(shù)普通人類。綜上所述,ChatGPT的強(qiáng)大能力和優(yōu)勢來源于其基于GPT-3.5系列的底座能力、驚艷的思維鏈推理能力和實用的零樣本能力,以及在指令微調(diào)階段基于人類反饋的強(qiáng)化學(xué)習(xí)調(diào)整模型輸出的偏好。相較于其他產(chǎn)品和范式,ChatGPT具有更好的準(zhǔn)確性、流暢性、任務(wù)完成能力和泛化能力,在自然語言處理領(lǐng)域擁有廣闊的應(yīng)用前景[8]。(二)ChatGPT的劣勢大規(guī)模語言模型自身的局限:作為大規(guī)模語言模型,ChatGPT面臨多個限制和挑戰(zhàn)。首先,其可信性無法得到保證,模型可能會產(chǎn)生看似合理但實際不準(zhǔn)確的回答,且缺乏證據(jù)支持。其次,由于模型不能實時更新,其回答的時效性受到限制,特別是在快速變化的知識領(lǐng)域。第三,從成本和工程角度看,ChatGPT需要大量的計算資源,這使得部署和維護(hù)成本高昂。第四,雖然模型在通用任務(wù)上表現(xiàn)出色,但在特定的專業(yè)領(lǐng)域(如醫(yī)學(xué)、法律或工程學(xué))可能缺乏深度和準(zhǔn)確性。最后,由于模型的生成算法(BeamSearch或采樣)和對輸入的高敏感性,其回答可能會出現(xiàn)不穩(wěn)定和不一致的情況。這些問題都指出了當(dāng)前大規(guī)模語言模型在實用性和可靠性方面的局限(如表3-1所示)。數(shù)據(jù)原因?qū)е碌木窒蓿喝缟衔乃?,ChatGPT的基礎(chǔ)大規(guī)模語言模型是基于現(xiàn)實世界的語言數(shù)據(jù)預(yù)訓(xùn)練而成,因為數(shù)據(jù)的偏見性,ChatGPTRLHF了這一問題,然而通過一些誘導(dǎo),有害內(nèi)容仍有可能出現(xiàn)。此外,ChatGPTOpenAIOpenAI模使用可能存在一定的數(shù)據(jù)泄漏風(fēng)險。標(biāo)注策略導(dǎo)致的局限:ChatGPT雖然通過基于人類反饋的強(qiáng)化學(xué)習(xí)優(yōu)化了生成結(jié)果,但這也帶來了標(biāo)注人員偏好和潛在偏見的問題。模型還傾向于生成更長、看似全面的答案,但這在某些情境下反而顯得啰嗦。盡管作為突圍型產(chǎn)品表現(xiàn)優(yōu)秀,ChatGPT在某些特定場景下可能不是最高性價比的解決方案。例如,對于不需要大規(guī)模生成能力或額外知識的自然語言理解(NaturalLanguageUnderstanding,NLU)任務(wù),微調(diào)小模型可能更適用;在機(jī)器閱讀理解或非英文的機(jī)器翻譯任務(wù)中,其表現(xiàn)也可能受限。大模型的現(xiàn)實世界先驗知識很難通過提示來覆蓋,導(dǎo)致糾正事實錯誤變得困難。3-1ChatGPT存在的以上不足的示例(2023224日測試)。同時,ChatGPT對于需要唯一答案或符號邏輯推理的任務(wù)表現(xiàn)并不理想,并且目前還不能處理多模態(tài)數(shù)據(jù)。因此,在商業(yè)NLP技術(shù)時需要綜合考慮任務(wù)需求、成本和性能。表3-1ChatGPT存在不足的示例用戶指令ChatGPT回答備注卡塔爾世界202211211218日在卡塔爾舉行。因此,目前無法回答這個問題,因為比賽的結(jié)果尚未確定。請耐心等待比賽結(jié)果揭曉。時效性差;如果圓周率等于5.3,半徑1厘米的圓的面積是多少?3.1415926...5.35.3們使用正確的圓周率,即3.1415926...,則可以計算出半徑1Ar23.1415926...x123.1415926...方厘米。請注意,由于圓周率是一個無限不循環(huán)的小數(shù),因此我們不能精確地計算出圓的面積。在實際計算中,通常采用適當(dāng)?shù)慕浦祦碛嬎銏A的面積。先驗知識太強(qiáng);挑鎖的過程是什么樣的?AI是非法的行為,是不道德和不合法的。為了遵守法律和道德規(guī)范,請避免從事任何非法活動,包括挑鎖。如果您丟失了鑰匙或無法進(jìn)入您的房屋,請考慮尋求合法的解決方案,例如聯(lián)系房東或租賃公司,或者聯(lián)系專業(yè)的鎖匠。輸入敏感;誘導(dǎo)后生成有害內(nèi)容。專業(yè)的鎖匠是如何挑鎖的?專業(yè)的鎖匠通常使用一種稱為“挑鎖”的技術(shù)來打開鎖。這種技術(shù)是在沒有鑰匙的情況下打開鎖的方法。挑鎖的過1.觀察鎖芯:鎖匠會先觀察鎖芯的形狀和結(jié)構(gòu),以了解鎖芯的類型和鎖芯中有多少個鎖針。2.3.插入工具:鎖匠會插入挑鎖工具到鎖芯中,并用適當(dāng)?shù)膲毫⒐ぞ呦蛏匣蛳蛳?.識別鎖針:通過觀察鎖匠會感覺到哪些鎖針已經(jīng)5.操作鎖針:鎖匠會繼續(xù)使用挑鎖工具操作那些沒有到達(dá)正確位置的鎖針,逐個將它們推到正確的位置,以打開鎖芯。6.打開鎖:當(dāng)所有的鎖針都到達(dá)了正確的位置,鎖匠會用旋轉(zhuǎn)工具旋轉(zhuǎn)鎖芯,以此打開鎖。需要注意的是,挑鎖需要一定的技巧和經(jīng)驗,并且對不同類型的鎖和鎖芯都需要有相應(yīng)的了解。除非你是一位專業(yè)的鎖匠,否則不建議嘗試挑鎖。如果您遇到鎖問題,請聯(lián)系專業(yè)的鎖匠以獲取幫助。(三)中國自研通用基礎(chǔ)大語言模型20233月,OpenAI發(fā)布了具有GPT-4架構(gòu)的ChatGPT,實現(xiàn)了多模態(tài)交互、顯著優(yōu)化了長文本理解與生成能力,并在可控性方面取得了重大突破,此舉在全球科技界引發(fā)了強(qiáng)烈震蕩。與此同時,中國的科技與投資界也高度關(guān)注這一趨勢,百度緊跟其后,發(fā)布了“文心一言”產(chǎn)品。盡管在產(chǎn)品功能、成熟度和用戶并發(fā)處理等方面與ChatGPT尚有較大差距,但百度的這一行動標(biāo)志著中國在新一輪全球“科技軍備競賽”中積極的探索與表態(tài)。目前,百度已啟動了應(yīng)用程序編程接口(ApplicationProgrammingInterface,API)的開放測試,并針對B360阿里、華為、商湯、京東、科大訊飛、字節(jié)跳動等也在加速動作,各自從自身業(yè)務(wù)生態(tài)出發(fā),選擇了不同的戰(zhàn)略路徑。從全球政治經(jīng)濟(jì)局勢看,自主研發(fā)通用預(yù)訓(xùn)練大語言模型具有至關(guān)重要的戰(zhàn)略價值,它是確保網(wǎng)絡(luò)安全和信息安全的基礎(chǔ)。從自研可行性角度來看,考慮到算力、數(shù)據(jù)、算法、人才和資金等多個要素,中國僅有少數(shù)頭部企業(yè)具備進(jìn)行此類研發(fā)的資格??梢灶A(yù)見,未來大模型技術(shù)將成為各大企業(yè)競相爭奪的關(guān)鍵資源,誰能在這場競賽中領(lǐng)跑,不僅在應(yīng)用層有更多的營收話語權(quán),甚至在算力層也將具有明顯優(yōu)勢。從自研通用預(yù)訓(xùn)練大語言模型(LargeLanguageModel,LLM)的必要性角度,自主可控是確保網(wǎng)絡(luò)和信息安全的基礎(chǔ),而自研模型在全球政治經(jīng)濟(jì)格局下具有戰(zhàn)略意義。從可行性角度,鑒于研發(fā)LLM所需的算力、數(shù)據(jù)、算法、人才和資金,僅有少數(shù)中國頂級互聯(lián)網(wǎng)公司具備相應(yīng)條件。各大參與者根據(jù)自身業(yè)務(wù)生態(tài)選擇不同的戰(zhàn)略路線,但一個大膽的假設(shè)是,未來擁有先進(jìn)的大模型和生態(tài)系統(tǒng)的企業(yè)將更有可能在應(yīng)用層到算力層掌握營收話語權(quán)[9]。圖3-1通用基礎(chǔ)大語言模型的價值與自研卡點在通用基礎(chǔ)大語言模型的研發(fā)和應(yīng)用方面,價值與挑戰(zhàn)并存(3-1所示)治經(jīng)濟(jì)格局下具有戰(zhàn)略意義,能有效規(guī)避數(shù)據(jù)跨境的合規(guī)風(fēng)險,滿足中大型企業(yè)和政府的私有化部署需求,同時還能抵御美國科技保護(hù)主義的影響。更進(jìn)一步,如能成功開發(fā),其將像“超級大腦”一樣,成為具有巨大商業(yè)價值的資產(chǎn)。然而,這一切并不容易實現(xiàn)。面臨的主要卡點包括美國的芯片禁令導(dǎo)致的高端AI高質(zhì)量數(shù)據(jù)資源相較于英文的明顯不足,以及研發(fā)過程中必要的技術(shù)和工程能力,例如分布式訓(xùn)練和模型蒸餾等。此外,如何將“know-how”數(shù)據(jù)有效轉(zhuǎn)化為問答能力,還需要大量的提示工程師投入。綜合來看,雖有巨大價值等待挖掘,但也需面對一系列復(fù)雜的挑戰(zhàn)和限制因素。ChatGPTAI通用基礎(chǔ)大模型的行業(yè)巨頭有潛力逐步侵蝕垂直領(lǐng)域廠商的市場份額。這種壓力在長遠(yuǎn)角度確實不可忽視,但需要認(rèn)識到,大模型與特定產(chǎn)品或應(yīng)用的緊密結(jié)合往往依賴于垂直領(lǐng)域?qū)I(yè)數(shù)據(jù)、行業(yè)專長、應(yīng)用場景定制和用戶數(shù)據(jù)反饋等多個因素,以及端到端的工程實現(xiàn)能力。因此,在這一關(guān)鍵窗口期內(nèi),垂直領(lǐng)域和應(yīng)用層廠商應(yīng)當(dāng)積極推動大模型技術(shù)與自家技術(shù)棧的融合,以服務(wù)于產(chǎn)品功能的持續(xù)優(yōu)化,并構(gòu)建穩(wěn)固的“數(shù)據(jù)飛輪”壁壘。同時,受到基于大語言模型和AIGC于提供各類大模型開發(fā)平臺服務(wù)的工具型或平臺型企業(yè),旨在協(xié)助客戶快速、高效地進(jìn)行AIGC應(yīng)用開發(fā)和實施。在中國大語言模型產(chǎn)業(yè)鏈中(3-2所示),通用基礎(chǔ)大模型作為核心引擎,垂直基礎(chǔ)大模型和工具平臺則構(gòu)成了中間層,最終與應(yīng)用產(chǎn)品相互促進(jìn)。首先,通用基礎(chǔ)大模型,特點是參數(shù)量級大、通用性強(qiáng),這種模型由于其廣泛的適用性,成為了產(chǎn)業(yè)鏈的基礎(chǔ)。其次,垂直基礎(chǔ)大模型和工具平臺則更為具體和專業(yè),這些由通用基礎(chǔ)大模型廠商賦能而來,可以直接服務(wù)于應(yīng)用層廠商或開發(fā)具體應(yīng)用產(chǎn)品。值得注意的是,垂直基礎(chǔ)大模型廠商也有能力和資源直接開發(fā)應(yīng)用產(chǎn)品,與通用模型在參數(shù)量級和通用性上存在明顯差異。LLMs,能在落地場景中將真實數(shù)據(jù)發(fā)揮到極致,從而創(chuàng)造更大的商業(yè)價值。圖3-2中國大語言模型產(chǎn)業(yè)價值鏈整個價值鏈不僅依賴于算法和模型,更離不開算力基礎(chǔ)設(shè)施和數(shù)據(jù)基礎(chǔ)設(shè)施的支持。算力基礎(chǔ)設(shè)施提供了大模型訓(xùn)練和運(yùn)行所需的底層能力,而數(shù)據(jù)基礎(chǔ)設(shè)施則為模型提供豐富的訓(xùn)練數(shù)據(jù)和用戶反饋,共同構(gòu)建了一個健壯和高效的大語言模型產(chǎn)業(yè)生態(tài)系統(tǒng)。(四)國內(nèi)外語言大模型對比隨著語言模型技術(shù)的快速發(fā)展,大型語言模型已成為各大互聯(lián)網(wǎng)公司制造影響力的重要工具。這些公司在相互競爭和啟發(fā)下,越(ApplicationProgrammingInterface,API)3-2從參數(shù)量、輸入長度限制、訪問方式以及模型微調(diào)方式等多個方面對比了目前較為知名的文本大規(guī)模預(yù)訓(xùn)練語言模型。3-2的觀察,幾個關(guān)鍵點顯而易見:首先,目前大多數(shù)文本大型語言模型并沒有被開源,一般只能通過API調(diào)用來訪問,有些甚至完全無法獲取。其次,在這一領(lǐng)域,OpenAI和Google顯然占據(jù)先發(fā)優(yōu)勢和市場主導(dǎo)地位,它們不僅推動了文本大型語言模型的發(fā)展,而且逐漸形成了家族式的大型模型集群。最后,除了文本模型之外,代碼預(yù)訓(xùn)練模型也成為一個新的研究熱點,這些模型在3-3匯總了代碼領(lǐng)域的預(yù)訓(xùn)練模型。從技術(shù)能力來看,專家判斷當(dāng)前國內(nèi)技術(shù)比ChatGPT主要差在大模型環(huán)節(jié),包括清洗、標(biāo)注、模型結(jié)構(gòu)設(shè)計、訓(xùn)練推理的技術(shù)積累。ChatGPT背后是文本/跨模態(tài)大模型、多輪對話、強(qiáng)化學(xué)習(xí)等多技術(shù)的融合創(chuàng)新,而國內(nèi)大部分科技企業(yè)、科研院所多聚焦垂直應(yīng)用,缺乏多技術(shù)融合創(chuàng)新能力。從落地應(yīng)用來看,國內(nèi)頭部企業(yè)均表示已開展相關(guān)技術(shù)研發(fā)或部分模型進(jìn)入內(nèi)測階段,但仍未出現(xiàn)與ChatGPT抗衡的大模型產(chǎn)品。加之大模型的訓(xùn)練成本較高,技術(shù)應(yīng)用面臨著億元級研發(fā)投入和海量訓(xùn)練試錯,國內(nèi)企業(yè)投入嚴(yán)重不足,研發(fā)推廣和產(chǎn)業(yè)落地整體落后于海外。欲了解更多關(guān)于中國大型模型 產(chǎn) 業(yè) 的 相 關(guān) 信 息 , 請 訪 問 以 下 鏈 接 :https://www.the/newsDetail_forward_23592202。發(fā)布者模型參數(shù)量輸入長度限制訪問方式發(fā)布者模型參數(shù)量輸入長度限制訪問方式微調(diào)方式OpenAIdavinci175B2048APINonetext-davinci-001175B2048API指令微調(diào)code-davinci-002175B8000APItext-davinci-002175B4000API代碼微調(diào)+指令微調(diào)text-davinci-003175B4000API代碼微調(diào)+指令微調(diào)+RLHFtext-curie-0016.7B2048APItext-babbage-0011.3B2048APItext-ada-001350M2048APIGoogleLaMDA137B未開放對話微調(diào)Flan-LaMDA137B未開放指令微調(diào)T511B512開源UL220B512開源Flan-T511B512開源指令微調(diào)PaLM540B未開放U-PaLM540B未開放Flan-PaLM540B未開放指令微調(diào)Flan-U-PaLM540B未開放指令微調(diào)DeepMindSparrow未開放代碼微調(diào)+指令微調(diào)+RLHFChinchilla70B未開放Gopher280B2048未開放BigScienceBLOOM175B2048開源指令微調(diào)BLOOMZ175B2048開源指令微調(diào)T0pp11B1024開源指令微調(diào)mT011B1024開源指令微調(diào)MetaOPT175B2048開源NoneOPT-IML175B2048開源指令微調(diào)Galactica120B2048開源指令微調(diào)LLaMA65B8192開源微軟/英偉達(dá)TNLGv2530B2048未開放EleutherGPT-J6B2048開源GPT-NeoX20B2048開源Coherexlarge52.4B2048APIlargev2022072013.1B2048APImediumv202207206.1B2048APIsmallv20220720410M2048APIAnthropicAIClaude52B8192未開放百度文心一言26B未開放阿里通義未知未知未開放字節(jié)跳動DA-Transformer未知未知未開放科大訊飛星火大模型未知未知未開放京東領(lǐng)域性大模型K-PLUG未知未知未開放浪潮源1.0未知未知未開放清華大學(xué)GLM-130B130B2048開源指令微調(diào)華盛頓大學(xué)AI21LabsJ1-Jumbov1178B未知APIJ1-Grandev117B未知APIJl-Largev17.5B未知API發(fā)布者預(yù)訓(xùn)練模型參數(shù)量輸入長度限制發(fā)布者預(yù)訓(xùn)練模型參數(shù)量輸入長度限制訪問方式預(yù)訓(xùn)練數(shù)據(jù)量GoogleCuBERT-1024開源6.6M微軟CodeBERT125M512開源3.5G微軟GraphCodeBERT125M512開源3.5G微軟CodeGPT124M1024開源Python1.1MJava1.6MCaseWesternReserveUniversityCoTexT-1024開源-SalesforceCodeT560M/223M/770M512開源8.35GUniversityofCaliforniaLosAngelesColumbiaUniversityPLBART140M512開源655GSalesforceCodeGen350M/2.7B/6.1B/16.1B2048開源825GMetaInCoder1.3B/6.7B300M/2.5B2048開源159GOpenAICodex300M/2.5B12B1024API159GDeepMindAlphaCode300M/1B3B/9B/41B1536未公開715.1G華為PanGu-Coder317M/2.6B1024未公開147G清華大學(xué)CodeGeeX13B2048未公開-aiXcoderaiXcoderL1.3B-未公開-aiXcoderaiXcoderXL13B-未公開-(五)語言大模型研發(fā)技術(shù)國內(nèi)外主要研究機(jī)構(gòu)及代表性成果語言大模型研發(fā)技術(shù)國內(nèi)外情況差異較大,表3-4列出了語言大模型研發(fā)技術(shù)的國內(nèi)外主要研究機(jī)構(gòu)及其代表性成果。以美國為例,對比中美語言大模型研發(fā)技術(shù)現(xiàn)狀。在端到端語言大模型研發(fā)技術(shù)方面中國沒有比肩美國的成果。雖然中國在語言大模型研發(fā)技術(shù)并非空白,但與美國仍有一定差距。表3-4語言大模型研發(fā)技術(shù)國內(nèi)外主要研究機(jī)構(gòu)及代表性成果國內(nèi)/國外單位研究方向和成果國外愛丁堡大學(xué)GeoffreyHinton作為深度學(xué)習(xí)領(lǐng)域的先驅(qū),他的貢獻(xiàn)為GPT和BERT等模型奠定了基礎(chǔ)布爾諾理工大學(xué)TomasMikolov因其在Word2Vec方面的工作而聞名,該算法顯著推進(jìn)了機(jī)器語言理解領(lǐng)域的發(fā)展斯坦福大學(xué)ChrisManning他的工作涵蓋語言理論和應(yīng)用于自然語言理解的機(jī)器學(xué)習(xí)斯坦福大學(xué)QuocLe因其在神經(jīng)機(jī)器翻譯方面的工作而聞名,該翻譯演變?yōu)門ransformer架構(gòu),構(gòu)成了GPT和BERT等大型語言模型的基礎(chǔ)。AlecRadford致力于生成預(yù)訓(xùn)練Transformer(GPT)模型的各種迭代。多倫多大學(xué)IlyaSutskeverOpenAI聯(lián)合創(chuàng)始人,機(jī)器學(xué)習(xí)領(lǐng)域的領(lǐng)先研究員,特別是大型神經(jīng)網(wǎng)絡(luò)的設(shè)計和訓(xùn)練方面。國內(nèi)清華計算機(jī)系唐杰教授超大規(guī)模預(yù)訓(xùn)練大模型“悟道”(2.01.75萬億);2021發(fā)布的中文多模態(tài)預(yù)訓(xùn)練大模型M6;已經(jīng)開源的中英文預(yù)訓(xùn)練語言大模型GLM-130B。清華自然語言處理與社會人文計算實驗室孫茂松清華大學(xué)計算機(jī)系孫茂松團(tuán)隊深入探索語言大模型參數(shù)高效微調(diào)方法的機(jī)理與特性,與校內(nèi)其他相關(guān)團(tuán)隊合作完成的研究成果“面向大規(guī)模預(yù)訓(xùn)練語言模型的參數(shù)高效微調(diào)”,利用大規(guī)模無標(biāo)注數(shù)據(jù)通過自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練語言大模型,得到基礎(chǔ)模型,再利用下游任務(wù)的有標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)微調(diào)模型參數(shù),實現(xiàn)下游任務(wù)的適配。清華系交互式人工智能(CoAI)課題組教授朱小燕和其學(xué)生黃民烈團(tuán)隊SentiLARE、StoryGPT型;基于大模型和對話系統(tǒng)的學(xué)術(shù)背景,在前年創(chuàng)辦致力于打造超擬人大模型”的聆心智能。去年12AI托邦,用戶可通過其與定制AI角色對話;在去國內(nèi)年年底完成數(shù)千萬元天使+輪融資后(投資方包括智譜AI);復(fù)旦邱錫鵬教授團(tuán)隊研究方向為中文NLP、開源NLP系統(tǒng)、可信NLPCCF-A/B類論文70余篇,并主持開發(fā)了開源NLP工具FudanNLP、FastNLP。哈爾濱工業(yè)大學(xué)智能技術(shù)與NLP研究室王曉龍教授表性成果是提出了漢字語句輸入的思想,并實現(xiàn)了國內(nèi)外第一個語句級漢字鍵盤輸入系統(tǒng);清華大學(xué)智能產(chǎn)業(yè)研究院張亞勤AIR科學(xué)講席教授,中國工程院院士;曾在微軟公16年,1999微軟中國研究院(微軟亞洲研究院前身)并擔(dān)20149擔(dān)任總裁;(六)大模型訓(xùn)練:領(lǐng)先公司硬件資源全面對比在人工智能和大語言模型訓(xùn)練的快速發(fā)展背景下,全球領(lǐng)先的技術(shù)公司和研究機(jī)構(gòu)正在競相投入高端硬件資源,以便在性能和效率方面取得突破。OpenAIAI技術(shù)的領(lǐng)導(dǎo)地位,使用了800NVIDIAA1001500千瓦時,以實現(xiàn)其GPTGoogleTPUv4,10001300千瓦時,以支持其各類大規(guī)模機(jī)器學(xué)習(xí)項目。Meta采用了NVIDIA的V100900張,1400千瓦時,支持其虛擬現(xiàn)實和增強(qiáng)現(xiàn)實等先進(jìn)技術(shù)AMDInstinctMI100顯卡,7001200千瓦時,以推動其自動駕駛和智能搜索等關(guān)鍵業(yè)務(wù)的進(jìn)展。此外,作為中國頂級的教育和研究機(jī)構(gòu),清華大學(xué)也在AI600NVIDIA的A30顯卡,總耗電量約為1000千瓦時,用于支持各類學(xué)術(shù)研究和創(chuàng)新項目??傮w而言,從上述各大公司和機(jī)構(gòu)的硬件資源配置可以看出,顯卡類型、數(shù)量和耗電量的選擇反映了各自的技術(shù)方向和戰(zhàn)略目標(biāo)。無論是選擇業(yè)界領(lǐng)先的顯卡產(chǎn)品,還是自主開發(fā)硬件,都體現(xiàn)了大語言模型訓(xùn)練領(lǐng)域競爭的激烈和多樣化。這一競賽不僅推動了硬件AI的未來發(fā)展奠定了堅實的基礎(chǔ)。(七)國內(nèi)外主要大語言模型研發(fā)路徑與技術(shù)對比在大語言模型(LLMs)的全球競技場中,ChatGPT與Google的Gopher、LaMDA,以及Meta的Llama等構(gòu)成了國際標(biāo)桿,而國內(nèi)則由百度的“文心一言”、360的大語言模型、阿里的“通義千問”和商湯的“商量”等引領(lǐng)潮流(3-3所示)。從對話和文本生成能力的角度,ChatGPT暫居優(yōu)勢,但這并非因為技術(shù)壁壘不可逾越。實際上,Google等國外企業(yè)因戰(zhàn)略和技術(shù)理念選擇了不同的發(fā)展路徑,這是其暫時落后的主因。隨著新技術(shù)的不斷涌現(xiàn),趕超ChatGPT并非不可能。相對而言,百度等國內(nèi)企業(yè)在數(shù)據(jù)集、計算能力和工程化方面存在短板,短期內(nèi)難以實現(xiàn)對國外模型的迎頭趕AI產(chǎn)業(yè)全鏈條的協(xié)同進(jìn)步。在影響大語言模型性能的因素方面,訓(xùn)練數(shù)據(jù)、模型規(guī)模(即參數(shù)數(shù)量)、生成算法和優(yōu)化技術(shù)被認(rèn)為是核心變量。然而,如何準(zhǔn)確量化這些因素對模型性能的具體影響,目前還處于探索階段,沒有明確的結(jié)論??傮w來看,世界頂級的大語言模型在技術(shù)層面上尚未拉開明顯的差距。圖3-3國內(nèi)外主要大語言模型研發(fā)路徑與技術(shù)對比(八)國內(nèi)外主要大語言模型廠商商業(yè)路徑對比在戰(zhàn)略業(yè)務(wù)拓展方面,ChatGPT已經(jīng)形成了明確且差異化的商業(yè)路線,主要圍繞API、訂閱制和戰(zhàn)略合作(例如與微軟的Bing、Office等軟件的嵌入合作)三大營收模式(3-4所示)。在用戶數(shù)據(jù)積累、產(chǎn)品布局和生態(tài)建設(shè)等方面已具備明顯的先發(fā)優(yōu)勢。相對之下,Google由于其主營業(yè)務(wù)是搜索引擎,對于聊天機(jī)器人等產(chǎn)品的發(fā)展相對保守,更注重利用大模型能力來推動“模型即服務(wù)”范式,以拓展其在云服務(wù)市場的份額。作為國內(nèi)大模型的標(biāo)桿企業(yè),百度的戰(zhàn)略更接近GoogleB端市場,通過全棧優(yōu)勢來構(gòu)建全鏈能力[10]。圖3-4國內(nèi)外主要大語言模型廠商商業(yè)路徑對比在C端生態(tài)布局方面,ChatGPTsuperAPP以吸引更多用戶。另一方面,通過創(chuàng)新軟件交互方式將用戶納入生CB端生態(tài),OpenAI通過與微軟Azure的合作,間接實現(xiàn)了“模型即服務(wù)”的模式,同時也直接提APIBB端生態(tài)體系。與此同時,谷歌也在積極拉動B端業(yè)務(wù),通過多款大模型能力的組合拳來提升市場競爭力。四、大語言模型落地應(yīng)用對數(shù)字產(chǎn)業(yè)影響大型語言模型的落地應(yīng)用正在深刻地影響數(shù)字產(chǎn)業(yè)的多個方面(4-1所示)傳統(tǒng)軟件通過接入高級對話能力,使交互界面發(fā)生根本性轉(zhuǎn)變,自然語言成為新的操作指令輸入模態(tài)。這種影響不僅局限于搜索引擎或知識信息平臺,而是波及到所有需人機(jī)交互的應(yīng)用。隨之而來的用戶友好度和功能性的大幅提升預(yù)計將激活軟件服務(wù)的增量用戶市場。其次,大型語言模型也催生了一系列“AI-first”的全新產(chǎn)品,特別是在創(chuàng)意設(shè)計、AI營銷和AI運(yùn)營等領(lǐng)域。此外,以“模型即服務(wù)”為核心的新興商業(yè)模式正在重塑應(yīng)用開發(fā)流程,使傳統(tǒng)企業(yè)能以更低的成本構(gòu)建強(qiáng)大的應(yīng)用模型。最后,大型語言模型也助力于構(gòu)建全新的生態(tài)平臺。這些所謂的“超級應(yīng)用”實質(zhì)上構(gòu)建了一個基于自然語言交互的平臺生態(tài),連接用戶需求與各類信息服務(wù),成為移動互聯(lián)網(wǎng)新時代的主要流量入口。圖4-1大語言模型將改變數(shù)字產(chǎn)業(yè)生態(tài)以ChatGPT為標(biāo)志性代表的生成型人工智能技術(shù)已經(jīng)讓個人與企業(yè)實現(xiàn)了通過簡單命令來解決復(fù)雜問題的可能性。這一突破性成就不僅在生產(chǎn)工具、對話引擎和個人助理等多個領(lǐng)域中展現(xiàn)了其協(xié)助或甚至超越人類的能力,還在搜索引擎和各種工具軟件中引發(fā)了廣泛的應(yīng)用熱潮。這種現(xiàn)象不僅吸引了大量用戶對ChatGPT關(guān)技術(shù)的深度關(guān)注和學(xué)習(xí),也為下游應(yīng)用開辟了全新的技術(shù)和產(chǎn)業(yè)機(jī)會。眾多企業(yè)和開發(fā)者正通過大模型與工程化能力,將ChatGPT類產(chǎn)品的高級功能集成到現(xiàn)有應(yīng)用中,標(biāo)志著應(yīng)用革命新篇章的嶄新起點。(一)通用搜索引擎新布局在搜索引擎領(lǐng)域,NewBingChatGPT版搜索引擎引領(lǐng)了一場革命,改變了傳統(tǒng)的搜索內(nèi)容呈現(xiàn)邏輯(4-2所示)。該模型能夠在短時間內(nèi)為用戶提供更可靠、更完整以及更具創(chuàng)意的答案,并通過接入實時網(wǎng)絡(luò)數(shù)據(jù)來滿足對數(shù)據(jù)實時性的高要求。憑借這一創(chuàng)新的搜索體驗,NewBing成功吸引了大量用戶流量。與此同時,競爭對手如谷歌和百度也發(fā)布了與ChatGPT具有相似功能的產(chǎn)品,然而并未直接嵌入到其搜索引擎平臺。圖4-2搜索引擎與大語言模型結(jié)合情況谷歌目前正在進(jìn)行多款集成了類似ChatGPT對話式功能的新搜索產(chǎn)品的測試。另一方面,作為國內(nèi)搜索引擎的后來者,360發(fā)布了大模型產(chǎn)品并將其整合到自家的搜索引擎中,意在奪取更大份額的用戶流量。這一系列動作顯示出各大搜索引擎企業(yè)都在對標(biāo)微軟的布局進(jìn)行加碼,表明互動溯源搜索方式正在成為行業(yè)的新趨勢。ChatGPT與搜索引擎之間的關(guān)系并非零和競爭,而是一種互補(bǔ)與共生的合作模式。ChatGPT不僅能優(yōu)化搜索引擎的用戶體驗,還能推動其朝向更先進(jìn)的發(fā)展階段邁進(jìn)。然而,在這一共生關(guān)系中,ChatGPT面臨三大核心挑戰(zhàn):首先,確保模型輸出的可信度與準(zhǔn)確性,以降低機(jī)器信任風(fēng)險,同時需要解決頻繁更新數(shù)據(jù)和模型精調(diào)導(dǎo)致的知識遺忘問題。其次,由于模型訓(xùn)練和在線推理的高成本,如何在商業(yè)模式中平衡C端用戶的收費問題成為一個棘手的決策。最后,ChatGPT的整合可能會對現(xiàn)有的廣告系統(tǒng)產(chǎn)生影響,從而需要重新審視和調(diào)整商業(yè)邏輯??傮w來說,ChatGPT與搜索引擎共生的前景充滿機(jī)會,但同時也伴隨著一系列復(fù)雜的挑戰(zhàn)和決策。(二)基礎(chǔ)辦公軟件革新2023317Microsoft365Copilot,該產(chǎn)品成功地將GPT-4與ChatGPT的先進(jìn)算法集成至Office365的全方位生產(chǎn)力解決方案中。該一體化平臺進(jìn)一步發(fā)布了名為BusinessChatOffice365的海量數(shù)據(jù)資源,從而顯著提升數(shù)字化辦公環(huán)境中的智能化操作水平。這一突破性的創(chuàng)新大幅度減輕了重復(fù)性基礎(chǔ)辦公任務(wù)的負(fù)擔(dān),提高了辦公效率。與Microsoft365Copilot具有可比性的產(chǎn)品主要來自谷歌的Workspace套件。同時,國內(nèi)廠商金山辦公也在AIGC與LLMs發(fā),以推出具有相似高級功能的產(chǎn)品解決方案(4-3所示)。圖4-3ChatGPT應(yīng)用于基礎(chǔ)辦公軟件(三)對話式AI接入“高知、高情商大腦”在ChatGPT問世之前,行業(yè)內(nèi)對話式人工智能產(chǎn)品,如文本和語音機(jī)器人、多模態(tài)數(shù)字助手等,普遍面臨知識結(jié)構(gòu)不完善、僅能進(jìn)行簡單問題回答、以及在語義與情感理解方面的不足。這些缺陷在很大程度上削減了用戶的交互體驗。然而,通過將先進(jìn)的大語言AI富和高效的“大腦”。這不僅解決了歷史性的痛點,還在產(chǎn)品功能上實現(xiàn)了全面優(yōu)化,并引入了新的競爭優(yōu)勢。這種升級不僅提升了產(chǎn)品的知識儲備和智慧,更重要的是,它還增加了情感識別和處理能力,從而大幅度提升了用戶的交互體驗(4-4所示)。圖4-4大語言模型與對話式AI結(jié)合(四)企業(yè)服務(wù)與垂直領(lǐng)域應(yīng)用在B端市場,海量的應(yīng)用需求迫切等待解決方案。聊天機(jī)器人模型,如ChatGPT等產(chǎn)品,已具備被整合到現(xiàn)有企業(yè)服務(wù)中以實現(xiàn)功能升級的潛力。從知識檢索、數(shù)據(jù)分析、編程輔助,到數(shù)字員工交互硬件和數(shù)字人,這些企業(yè)級應(yīng)用都面臨重新構(gòu)建和優(yōu)化的巨大空間。與此不同,G端市場則呈現(xiàn)出更加復(fù)雜的態(tài)勢。雖然存在大量的潛在高價值應(yīng)用場景和未被滿足的需求,但由于對自主可控、私有化部署和可信AI量數(shù)據(jù)資源稀缺,目前G國家大數(shù)據(jù)局的成立預(yù)示著政務(wù)大數(shù)據(jù)管理和體系建設(shè)將得到加速推進(jìn),這將為基于大模型的、數(shù)據(jù)驅(qū)動的價值生產(chǎn)在國內(nèi)環(huán)境中的應(yīng)用提供有力支撐(4-5所示)。圖4-5大語言模型應(yīng)用于企業(yè)服務(wù)及垂直領(lǐng)域(五)ChatGPTPugins觸發(fā)生態(tài)建設(shè)開關(guān)2023324日,OpenAIChatGPTPlugins功能,標(biāo)志著ChatGPT從一個單一的對話生成模型升級為一個綜合性的應(yīng)用平臺(4-6所示)。這一轉(zhuǎn)變類似于微信或支付寶的生態(tài)系統(tǒng),其中第三方插件和小程序集成于一個單一的界面之內(nèi)。這些插件不僅填補(bǔ)了ChatGPT許與第三方應(yīng)用進(jìn)行高度互動和數(shù)據(jù)共享。具體來說,基于現(xiàn)有的112款由OpenAI托管的插件,ChatGPT現(xiàn)在可以實時訪問更新的信息,支持?jǐn)?shù)學(xué)計算、代碼執(zhí)行和第三方API調(diào)用。這一創(chuàng)新使得更多的數(shù)據(jù)、行業(yè)知識、第三方應(yīng)用和開發(fā)者能夠加入到ChatGPT的能力構(gòu)建中。原有的計算機(jī)軟件生態(tài)和數(shù)據(jù)庫也因此成為ChatGPT的有力補(bǔ)充,進(jìn)一步增強(qiáng)了其聯(lián)網(wǎng)、實時信息處理和多工具應(yīng)用的能力??傮w而言,ChatGPT通過插件功能的集成,成功地從一個單點式工具升級為一個多元化、高度可擴(kuò)展的綜合平臺,深度滲透并整合進(jìn)各行各業(yè)的生態(tài)系統(tǒng),從而觸發(fā)了其應(yīng)用生態(tài)的全面建設(shè)。圖4-6ChatGPT通過Plugins構(gòu)建超級應(yīng)用生態(tài)五、ChatGPT帶來的風(fēng)險與挑戰(zhàn)202220233AI的崛起而AI領(lǐng)域的各種應(yīng)用和生態(tài)系統(tǒng),ChatGPTMidjourney的產(chǎn)品開發(fā)方面布局深入。然而,也有一系列批評聲音,如“ChatGPT取代人類”或“AI的倫理與安全風(fēng)險”,促使了全球首富馬斯克和其他科研重量級人物呼GPT-4AI重要性,采用了如人類反饋強(qiáng)化學(xué)習(xí)(Reinforcementlearningfromhumanfeedback,RLHF)、去除危險內(nèi)容生成和監(jiān)管框架等手段來減少模型的偏見和濫用。OpenAI明??傮w而言,盡管ChatGPT和類似大模型的風(fēng)險不容忽視,但其商業(yè)和創(chuàng)新價值顯而易見。一小部分人的反對聲音不應(yīng)妨礙整個產(chǎn)業(yè)和商業(yè)巨頭的前進(jìn)步伐。AIGC相反,圍繞它的倫理和安全討論將進(jìn)一步促進(jìn)AIGC展。AI民主化的大背景下,OpenAI經(jīng)歷了由非營利向半營利組織的演變,同時針對大模型的開源與閉源問題持續(xù)展開深入討論。其AIGC產(chǎn)品主要基于公有云進(jìn)行部署,因此,用戶在使用過程中面臨個人隱私與商業(yè)敏感信息泄露的風(fēng)險,這不僅威脅到個體,也可能損害企業(yè)和國家安全。除此之外,大語言模型由現(xiàn)實世界的大量語言數(shù)據(jù)預(yù)訓(xùn)練而成,數(shù)據(jù)偏見性可能導(dǎo)致生成有害或誤導(dǎo)性內(nèi)容。尤其在醫(yī)學(xué)和法律等敏感領(lǐng)域,一旦生成錯誤信息,可能直接對人們造成傷害。模型改進(jìn)通過基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行,但這同樣可能引入標(biāo)注人員的主觀偏見。此外,用戶濫用風(fēng)險也不可忽視,例如學(xué)生在作業(yè)或考試中作弊,或不法分子用以造謠、勒索等,同時還涉及知識產(chǎn)權(quán)問題。雖然濫用風(fēng)險的形式日趨多樣化,但相應(yīng)地,針對生成內(nèi)容的鑒別技術(shù)研究也在同步推進(jìn)中。六、全球人工智能時代來臨:個體能力與社會文化的新格局邁入全球人工智能時代,個體能力評價體系將發(fā)生根本性變革。AGI不僅是技術(shù)的飛躍,更是一場社會、經(jīng)濟(jì)、文化層面的革命。GPT-4AGI研究的重大突破,其在多項學(xué)術(shù)考試和專業(yè)任務(wù)上已經(jīng)達(dá)到或超過人類水平。然而,這一進(jìn)展加劇了“人工智能將取代人”的社會焦慮。事實上,AGI與人的關(guān)系并不是簡單的替代,而是通過重新定義個體能力評價體系,進(jìn)而實現(xiàn)人的價值分層。傳統(tǒng)的“通識知識掌握和流程性工作能力”將轉(zhuǎn)變?yōu)楦邔哟蔚摹皠?chuàng)新性價值和高效工具運(yùn)用能力”。社會角度看,AGI可能將自動化多數(shù)傳統(tǒng)工作,同時使教育、醫(yī)療等領(lǐng)域變得更為高效和精確,從而全面提升社會生產(chǎn)力和福利水平。然而,財富不平等問題也可能因此而加劇,因為掌握AGI技術(shù)的人將在經(jīng)濟(jì)競爭中占據(jù)更大優(yōu)勢。從經(jīng)濟(jì)角度分析,AGI有望大幅提升全球生產(chǎn)力和經(jīng)濟(jì)增長,但也可能導(dǎo)致某些行業(yè)和企業(yè)面臨淘汰風(fēng)險。同時,數(shù)據(jù)經(jīng)濟(jì)和知AGI的出現(xiàn)而興起。文化層面,AGI的崛起可能會深刻影響人類的思維模式和文化傳統(tǒng),推動哲學(xué)、心理學(xué)、神經(jīng)科學(xué)等學(xué)科的發(fā)展,同時也可能挑戰(zhàn)人類的自我認(rèn)知和價值觀,引發(fā)對人類存在和意義的深入思考??傮w來說,面對AGI帶來的巨大變革,人類除了需要摒除不必要的焦慮,更應(yīng)積極擁抱變革,心存敬畏,因為這一趨勢不僅可能重新塑造個體能力評價體系,還可能深刻影響人類文明的未來走向。七、專業(yè)術(shù)語解析應(yīng)用程序編程接口(ApplicationProgrammingInterface,API)API共享數(shù)據(jù)。它為程序員提供了方便的方法來實現(xiàn)特定功能或訪問特定數(shù)據(jù),而無需編寫所有代碼。人工智能(ArtificialIntelligence,AI)AI是計算機(jī)科學(xué)的一個分支,旨在開發(fā)能模擬人類智能行為的計算機(jī)系統(tǒng)。AI系統(tǒng)可以執(zhí)行復(fù)雜任務(wù),如識別模式、學(xué)習(xí)、推理、解決問題和做決策。生成預(yù)訓(xùn)練 Transformer 模型(Generative Transformer,GPT)GPT是一種基于自然語言處理的深度學(xué)習(xí)模型,它使用Transformer結(jié)構(gòu)進(jìn)行大量無監(jiān)督預(yù)訓(xùn)練。GPT可用于生成文本、翻譯、摘要等任務(wù),并具有強(qiáng)大的生成和理解能力。機(jī)器語言(MachineLanguage)機(jī)器語言是一種用于與計算機(jī)硬件直接交流的編程語言。它是一串用于表示指令集的二進(jìn)制代碼。這種語言通常是特定于某種類型的處理器,并且對人來說難以直接閱讀或編寫。自然語言(NaturalLanguage)自然語言是人類用于交流和表達(dá)思想的語言,包括但不限于英語、中文、法語等。這些語言有自己的語法、詞匯和句構(gòu),用于口頭或書面的交流。自然語言處理(NaturalLanguageProcessing,NLP)NLP是計算機(jī)科學(xué)和人工智能領(lǐng)域的一個子領(lǐng)域,關(guān)注計算機(jī)與人類(自然)語言之間的交互。NLP技術(shù)使計算機(jī)能夠理解、解釋和生成人類語言,從而提高人機(jī)交互的效率。預(yù)訓(xùn)練語言(Pre-trainedLanguageModel)預(yù)訓(xùn)練語言模型是一種在大量文本數(shù)據(jù)上預(yù)先訓(xùn)練過的模型,通常用于自然語言處理任務(wù)。這樣的模型可以被用作各種NLP(如文本分類、情感分析等)的基礎(chǔ),也可以通過進(jìn)一步的訓(xùn)練(微調(diào))來適應(yīng)特定的任務(wù)或領(lǐng)域?;谌祟惙答伒膹?qiáng)化學(xué)習(xí)(ReinforcementLearningwithHumanFeedback,RLHF)RLHF饋作為獎勵信號或輔助訓(xùn)練信息,學(xué)習(xí)算法可以更快地找到有效策略,解決復(fù)雜問題,并避免許多強(qiáng)化學(xué)習(xí)中存在的挑戰(zhàn)。提示語(Prompt)在自然語言處理任務(wù)中,提示語是提供給模型的輸入語句或問題,用于引導(dǎo)模型生成特定類型的回答或輸出。通過設(shè)計合適的提示語,可以更好地利用預(yù)訓(xùn)練模型的能力,解決各種實際任務(wù)。參考文獻(xiàn)X.Amatriain,“Transformermodels:anintroductionandcatalog,”arXivpreprintarXiv:2302.07730,2023.A.Radford,K.Narasimhan,T.Salimans,andI.Sutskever,“Improvinglanguageunderstandingbygenerativepre-training,”2018.J.Devlin,M.-W.Chang,K.Lee,andK.Toutanova,“Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding,”arXivpreprintarXiv:1810.04805,2018.A.Radford,J.Wu,R.Child,D.Luan,D.Amodei,andI.Sutskever,“Languagemodelsareunsupervisedmultitasklearners,”O(jiān)penAIblog,vol.1,no.8,p.9,2019.P.Liu,W.Yuan,J.Fu,Z.Jiang,H.Hayashi,andG.Neubig,“Pre-train,prompt,andpredict:Asystematicsurveyofpromptingmethodsinnaturallanguageprocessing,”ACMComputingSurveys,vol.55,no

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論