人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT大模型的發(fā)展與應(yīng)用_第1頁
人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT大模型的發(fā)展與應(yīng)用_第2頁
人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT大模型的發(fā)展與應(yīng)用_第3頁
人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT大模型的發(fā)展與應(yīng)用_第4頁
人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT大模型的發(fā)展與應(yīng)用_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能行業(yè)專題報(bào)告:從RNN到ChatGPT,大模型的發(fā)展與應(yīng)用1.語言模型的原理和技術(shù)發(fā)展1.1.引言——從RNN到ChatGPT自然語言處理(NaturalLanguageProcessing,NLP)是計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)領(lǐng)域的一個(gè)交叉學(xué)科,主要研究如何讓計(jì)算機(jī)能夠理解、處理、生成和模擬人類語言的能力,從而實(shí)現(xiàn)與人類進(jìn)行自然對(duì)話的能力。通過自然語言處理技術(shù),可以實(shí)現(xiàn)機(jī)器翻譯、問答系統(tǒng)、情感分析、文本摘要等多種應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)方法已經(jīng)在自然語言處理領(lǐng)域取得了重要的進(jìn)展。自然語言處理的發(fā)展可追溯到20世紀(jì)50年代,當(dāng)時(shí)計(jì)算機(jī)科學(xué)家開始嘗試通過計(jì)算機(jī)程序來實(shí)現(xiàn)對(duì)自然語言的理解和生成。早期研究主要關(guān)注規(guī)則和基于知識(shí)的方法,如編寫語法規(guī)則和詞典來進(jìn)行句子分析。20世紀(jì)80年代,隨著計(jì)算能力的提高和大量語料庫的出現(xiàn),統(tǒng)計(jì)方法在自然語言處理領(lǐng)域逐漸占據(jù)主導(dǎo)地位。這一時(shí)期,許多基于統(tǒng)計(jì)的機(jī)器翻譯、分詞、詞性標(biāo)注等方法相繼出現(xiàn)。進(jìn)入21世紀(jì),尤其是近十幾年,深度學(xué)習(xí)技術(shù)的發(fā)展極大地推動(dòng)了自然語言處理的進(jìn)步。從2010年,TomasMikolov及其合作者提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語言模型開始,自然語言處理進(jìn)入了高速發(fā)展時(shí)期。2015年DzmitryBahdanau等人在論文《Neuralmachinetranslationbyjointlylearningtoalignandtranslate》中提出的注意力機(jī)制,使語言模型可以學(xué)習(xí)到詞和詞之間更深層次的依賴關(guān)系,從而更好地理解和生成語句。著名的Transformer結(jié)構(gòu)就廣泛采用了注意力機(jī)制,引領(lǐng)了后續(xù)自然語言處理技術(shù)的發(fā)展。以谷歌在2018年提出的BERT為代表的預(yù)訓(xùn)練語言模型,再次將自然語言處理的發(fā)展推進(jìn)到了一個(gè)新的階段。預(yù)訓(xùn)練語言模型利用無監(jiān)督學(xué)習(xí)在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練,生成一個(gè)通用的語言模型,然后在特定任務(wù)上進(jìn)行微調(diào),在數(shù)據(jù)利用、任務(wù)泛化、模型性能方面都有顯著提升。OpenAI發(fā)布的GPT-3模型,參數(shù)量達(dá)到1750億,其智能涌現(xiàn)能力標(biāo)志著人工智能模型的自然語言處理能力進(jìn)入了下一個(gè)階段。最新發(fā)布的GPT-4.0版本,參數(shù)規(guī)模達(dá)到了萬億以上,由單純的語言模型進(jìn)一步發(fā)展為可以處理來自不同模態(tài)(圖像、語音、文本等)信息的多模態(tài)大模型。本章將按時(shí)間順序介紹語言模型的各發(fā)展階段,以及各階段具有代表性的技術(shù)原理。1.2.自回歸語言模型1.2.1.循環(huán)神經(jīng)網(wǎng)絡(luò)-RNN1.2.1.1.循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)于2010年被首次應(yīng)用于語言模型的訓(xùn)練,其基本結(jié)構(gòu)即為基本的隱變量自回歸模型。RNN模型在每一個(gè)時(shí)間步都進(jìn)行隱變量計(jì)算,并基于計(jì)算得到的隱變量對(duì)本時(shí)間步的輸出進(jìn)行預(yù)測(cè)。對(duì)于每一個(gè)時(shí)間步,RNN的隱變量與上一個(gè)時(shí)間步使用相同的定義,結(jié)合當(dāng)前時(shí)間步的輸入信息循環(huán)地計(jì)算新的隱變量。于是基于循環(huán)計(jì)算的隱狀態(tài)神經(jīng)網(wǎng)絡(luò)被命名為循環(huán)神經(jīng)網(wǎng)絡(luò)。1.2.2.長(zhǎng)短期記憶網(wǎng)絡(luò)-LSTM與門控循環(huán)單元-GRU為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)模型存在的長(zhǎng)期依賴問題,研究人員先后提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(longshort-termmemory,LSTM)以及其簡(jiǎn)化的變體——門控循環(huán)單元(gatedrecurrentunit,GRU)。相較于前文所介紹的循環(huán)神經(jīng)網(wǎng)絡(luò),LSTM與GRU對(duì)于長(zhǎng)序列問題的處理效果更佳,并在在自然語言處理、語音識(shí)別、時(shí)間序列預(yù)測(cè)等領(lǐng)域得到了更加廣泛地應(yīng)用。1.2.2.1.長(zhǎng)短期記憶網(wǎng)絡(luò)-LSTMLSTM是一種改進(jìn)的RNN,旨在有效地處理和捕捉長(zhǎng)期依賴關(guān)系的序列數(shù)據(jù),它的核心思想是引入一種特殊的內(nèi)部狀態(tài)機(jī)制,以更好地處理長(zhǎng)序列,并避免梯度消失問題。LSTM引入了記憶單元(memorycell)來管理隱狀態(tài)中記錄的信息,通過幾個(gè)門結(jié)構(gòu)對(duì)其進(jìn)行控制:輸出門(outputgate)用來從單元中輸出條目;輸入門(inputgate)用于控制數(shù)據(jù)的讀入;遺忘門(forgetgate)用于重置記憶單元的內(nèi)容。這三種門結(jié)構(gòu)相配合的機(jī)制可以決定什么時(shí)候該對(duì)隱狀態(tài)輸入的信息作記憶,什么時(shí)候忽略。同為隱藏層的輸出,記憶單元僅用于網(wǎng)絡(luò)內(nèi)部信息的維護(hù),隱狀態(tài)則會(huì)傳遞到輸出層用于預(yù)測(cè)當(dāng)前時(shí)間步的輸出結(jié)果。1.2.2.2.門控循環(huán)單元-GRU相比于LSTM,門控循環(huán)單元(GRU)是一個(gè)稍微簡(jiǎn)化的變體。通常,GRU能夠提供與LSTM同等的效果,且收斂的速度更快。1.2.3.編碼器-解碼器架構(gòu)將輸入序列轉(zhuǎn)換成輸出序列的序列轉(zhuǎn)換模型(sequencetransduction)在各類現(xiàn)代人工智能應(yīng)用中發(fā)揮著至關(guān)重要的作用。機(jī)器翻譯是序列轉(zhuǎn)換模型的一個(gè)核心問題,也是語言模型最常用和最成功的基準(zhǔn)測(cè)試。機(jī)器翻譯的數(shù)據(jù)集是由源語言和目標(biāo)語言的文本序列對(duì)組成,其輸入和輸出都是長(zhǎng)度可變的序列。編碼器-解碼器(encoder-decoder)架構(gòu)正是為了處理這種類型的輸入和輸出而設(shè)計(jì)的,是形成不同序列轉(zhuǎn)換模型的基礎(chǔ),對(duì)語言模型的后續(xù)發(fā)展也起到了重要的作用。編碼器-解碼器架構(gòu)主要由編碼器(encoder)和解碼器(decoder)兩個(gè)組件組成。編碼器將長(zhǎng)度可變的輸入序列轉(zhuǎn)換為具有固定長(zhǎng)度的中間狀態(tài)(通常被稱為上下文向量或編碼向量)。輸入序列中的每個(gè)元素經(jīng)過編碼器的神經(jīng)網(wǎng)絡(luò)層進(jìn)行處理,逐步地講信息傳遞到隱狀態(tài)中,最終構(gòu)建出上下文向量。編碼器的隱藏狀態(tài)則被用作解碼器的初始狀態(tài)。解碼器則接受編碼器生成的上下文向量以及目標(biāo)序列的起始標(biāo)記,按時(shí)間步逐步地生成目標(biāo)序列的元素,直至生成完整的目標(biāo)序列。通常,由解碼器生成的當(dāng)前時(shí)間步的輸出元素,會(huì)作為其下一個(gè)時(shí)間步的輸入傳遞到解碼器中,以繼續(xù)生成序列的下一個(gè)元素。編碼器-解碼器架構(gòu)的主要應(yīng)用包括機(jī)器翻譯、文本摘要、對(duì)話生成和語音識(shí)別等。它的核心思想是將不定長(zhǎng)的輸入序列映射到固定長(zhǎng)度的上下文向量,再從上下文向量生成不定長(zhǎng)的輸出序列,這使得它適用于多種序列到序列的任務(wù)。這一架構(gòu)的發(fā)展對(duì)于自動(dòng)化生成任務(wù)和自然語言理解任務(wù)的進(jìn)展產(chǎn)生了深遠(yuǎn)的影響。1.3.注意力機(jī)制雖然使用LSTM、GRU等結(jié)構(gòu)的語言模型能通過隱藏的記憶單元捕捉序列的時(shí)序信息,但依然存在一些問題。將輸入序列的所有信息都?jí)嚎s到一個(gè)固定長(zhǎng)度的隱狀態(tài)中,會(huì)造成信息的缺失,當(dāng)輸入句子長(zhǎng)度很長(zhǎng)時(shí),模型的性能急劇下降。另外,在解碼器生成目標(biāo)序列的過程中,編碼器對(duì)其初始化的信息會(huì)隨著生成過程逐漸被“遺忘”。有研究者為了解決此類問題提出了增加上下文信息的RNN序列模型,在解碼器的每一個(gè)時(shí)間步都將編碼器壓縮的整個(gè)句子信息與解碼當(dāng)前的token一起輸入解碼器中,防止源端的上下文信息隨著目標(biāo)序列的增長(zhǎng)而衰減。但是這樣依舊存在一個(gè)問題:序列到序列模型解碼端不同時(shí)間步的token應(yīng)該得到同樣的上下文信息嗎?答案顯然是不。以語言翻譯為例:目標(biāo)語句翻譯過程中,當(dāng)前詞元與源語句不同位置上的詞元的相關(guān)程度明顯不同,而由編碼器壓縮得到的上下文信息無法提供這些信息。在這樣的背景下,注意力機(jī)制就應(yīng)運(yùn)而生了。2015年DzmitryBahdanau等人在論文《Neuralmachinetranslationbyjointlylearningtoalignandtranslate》中提出的注意力機(jī)制(AttentionMechanism),用于對(duì)輸入信息的不同部分賦予不同的權(quán)重,使語言模型可以學(xué)習(xí)到詞和詞之間更深層次的依賴關(guān)系,從而更好地理解和生成語句。引入注意力機(jī)制后,語言模型的性能得到了大幅度的提升。2017年Vaswani等人發(fā)表了《Attentionisallyouneed》,提出了基于自注意力機(jī)制(self-attentionmechanism)的,消除了傳統(tǒng)RNN循環(huán)結(jié)構(gòu)的Transformer結(jié)構(gòu)。Transformer結(jié)構(gòu)提高了模型的并行性,帶來了顯著的性能提升。同時(shí),隨著機(jī)器學(xué)習(xí)算力的發(fā)展,Transformer在大規(guī)模文本語料庫上進(jìn)行預(yù)訓(xùn)練并對(duì)特定下游任務(wù)進(jìn)行微調(diào),引領(lǐng)了后續(xù)的BERT、GPT等預(yù)訓(xùn)練模型和大語言模型的發(fā)展??傊琓ransformer模型的出現(xiàn)標(biāo)志著自然語言處理領(lǐng)域的一次革命,它的成功還擴(kuò)展到了計(jì)算機(jī)視覺等其他領(lǐng)域,為多模態(tài)任務(wù)提供了新的可能性。1.3.1.注意力機(jī)制對(duì)于人類來說,從各種感官系統(tǒng)接收到的信息遠(yuǎn)遠(yuǎn)超過了大腦能夠完全處理的水平。“注意力”代表了大腦當(dāng)前處理信息的傾向性,將更多的時(shí)間和資源用于處理某一部分信息。自然環(huán)境中的物體給人的各種感官帶來的信息都不相同。在非自主的情況下,人們通常將注意力集中在具有突出性的感官信息中,比如某些具有鮮艷突出顏色、發(fā)出刺耳噪音或產(chǎn)生奇特的香/臭味的物體。這些對(duì)人造成非自主性的注意力提示的物品,對(duì)人來說不一定有價(jià)值。為了完成當(dāng)前的任務(wù)要求,人們會(huì)通過自主性的意志提示,將注意力集中于與任務(wù)相關(guān)的目標(biāo)上,控制大腦處理信息的資源投入以更好地完成任務(wù)。人工智能領(lǐng)域中的注意力機(jī)制從本質(zhì)上來講,與人類的自主性注意力機(jī)制相似,核心是通過基于任務(wù)的提示,將注意力集中于小部分重要信息,忽略大部分干擾信息。深度學(xué)習(xí)中的注意力機(jī)制本質(zhì)上是一個(gè)查詢的過程,主要包括三個(gè)概念:查詢(query)、鍵(key)和值(value),key和value是成對(duì)存在的。如果用文獻(xiàn)檢索作為例子解釋它們的作用,那么所有key-value對(duì)的集合就相當(dāng)于整個(gè)資料庫,key相當(dāng)于每份資料的關(guān)鍵字和摘要,value相當(dāng)于每份資料的具體內(nèi)容,query則相當(dāng)于查詢者對(duì)目標(biāo)資料的描述。在檢索時(shí),將query與所有key進(jìn)行匹配和比較,找到相關(guān)性高的key對(duì)應(yīng)的value作為查詢的結(jié)果。實(shí)際上,注意力機(jī)制中query、key和value的概念更加抽象,最終的輸出結(jié)果是以key與query的依賴關(guān)系為權(quán)重的,個(gè)key所對(duì)應(yīng)的value的加權(quán)和。1.3.2.Transformer架構(gòu)1.3.2.1.自注意力機(jī)制注意力機(jī)制用于將一個(gè)元素(query)與其他元素(key-value)進(jìn)行匹配,以生成一個(gè)加權(quán)的匯總信息。以機(jī)器翻譯問題為例,引入注意力機(jī)制可以將解碼器每一個(gè)時(shí)間步的輸出作為query,與編碼器的每一個(gè)時(shí)間步的隱狀態(tài)進(jìn)行匹配,獲得一個(gè)以與query的相關(guān)性為權(quán)重的加權(quán)隱狀態(tài)作為上下文信息,作為編碼器的補(bǔ)充輸入進(jìn)行下一個(gè)時(shí)間步的輸出預(yù)測(cè),提高翻譯任務(wù)的準(zhǔn)確度。這意味著解碼器需要在每一個(gè)時(shí)間步都對(duì)輸入序列的所有位置進(jìn)行全局的權(quán)重計(jì)算,這在長(zhǎng)的輸入序列上會(huì)產(chǎn)生較高的計(jì)算復(fù)雜度,導(dǎo)致模型訓(xùn)練和推理的效率下降。因此,通常會(huì)采用固定窗口等限制方法來控制每個(gè)位置與其他位置的相關(guān)性,這就導(dǎo)致了與傳統(tǒng)語言模型類似的長(zhǎng)距離依賴問題,模型很難準(zhǔn)確捕捉到遠(yuǎn)距離位置之間的依賴關(guān)系。自注意力機(jī)制(self-attentionmechanism)將輸入序列中的每個(gè)元素視為query、key和value,計(jì)算輸入序列中的每個(gè)元素與其他元素的相關(guān)性,可以有效地捕捉序列內(nèi)部不同元素之間的依賴關(guān)系和相關(guān)性。在計(jì)算注意力權(quán)重時(shí),每個(gè)位置的注意力都是相互獨(dú)立的,這使得自注意力機(jī)制能夠充分利用現(xiàn)代硬件(如GPU或TPU)的并行計(jì)算能力。這種并行計(jì)算的優(yōu)勢(shì)在處理長(zhǎng)序列時(shí)尤為重要,因?yàn)樗鼧O大地提高了計(jì)算效率,使得模型能夠更快速地進(jìn)行訓(xùn)練和推理。1.3.2.2.Transformer的整體架構(gòu)2017年Vaswani等人發(fā)表了《Attentionisallyouneed》,提出了基于自注意力機(jī)制(self-attentionmechanism)的,消除了傳統(tǒng)RNN循環(huán)結(jié)構(gòu)的Transformer結(jié)構(gòu),極大程度地提高了模型計(jì)算的并行性,帶來了非常顯著的性能提升。下面會(huì)對(duì)Transformer模型結(jié)構(gòu)進(jìn)行簡(jiǎn)要的介紹。1.3.2.3.多頭注意力機(jī)制除了前面介紹的自注意力機(jī)制,Vaswani等人還提出了多頭注意力(multi-headattention)機(jī)制并將其應(yīng)用在Transformer塊中。多頭注意力機(jī)制旨在讓模型能夠通過對(duì)相同的query、key和value,基于相同的注意力機(jī)制學(xué)習(xí)到不同的行為,并根據(jù)不同行為的組合捕捉序列內(nèi)各種范圍的依賴關(guān)系。具體的實(shí)現(xiàn)方法是,通過對(duì)輸入數(shù)據(jù)進(jìn)行獨(dú)立學(xué)習(xí),獲得query、key和value的多組線性投影(linearprojections),再將每一組投影后的query、key和value送入各自獨(dú)立的注意力層中。最后將所有注意力層的輸出連接后,進(jìn)行一次總體的線性投影,產(chǎn)生最終的輸出結(jié)果。每一組的投影變換和注意力層都是互相獨(dú)立和并行的,這樣的每一個(gè)注意力層都被稱作一個(gè)頭(head),因此這種方法被稱作多頭注意力機(jī)制。1.3.2.4.殘差連接殘差連接(ResidualConnection)是構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的重要工具,對(duì)深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和性能具有諸多方面的好處,其概念最初來自何愷明等人提出的殘差網(wǎng)絡(luò)(ResNet)。ResNet在2015年的ImageNet大規(guī)模機(jī)器視覺識(shí)別挑戰(zhàn)賽奪冠,并深刻地影響了后來的深度網(wǎng)絡(luò)的設(shè)計(jì)。這兩者看似差別不大,而在實(shí)踐中,殘差映射擁有許多優(yōu)勢(shì)。在深度神經(jīng)網(wǎng)絡(luò)中,當(dāng)梯度反向傳播時(shí),它需要經(jīng)過多個(gè)層次的權(quán)重矩陣。這些權(quán)重矩陣通常包含非線性激活函數(shù),如ReLU,sigmoid等。這些激活函數(shù)可能導(dǎo)致梯度消失,使得梯度減小到接近零,從而阻礙了信息的傳遞。殘差連接通過直接將輸入信息與輸出信息相加,將原始輸入作為跳躍連接傳遞給后續(xù)層次,從而繞過了大部分的權(quán)重矩陣和激活函數(shù)。這種直接傳遞保持了梯度的相對(duì)大小,減少了梯度消失的風(fēng)險(xiǎn)。殘差連接降低了梯度消失問題的影響,同時(shí)殘差映射的擬合相比于直接映射更容易優(yōu)化,訓(xùn)練難度更低,這就代表著能夠設(shè)計(jì)層次更深、更復(fù)雜的網(wǎng)絡(luò),進(jìn)而提高模型的性能。殘差連接能夠使深度神經(jīng)網(wǎng)絡(luò)模型具有一定程度的可恢復(fù)性。即使一個(gè)殘差塊中的權(quán)重沒有成功學(xué)到有用的特征,殘差連接仍然可以傳遞原始輸入信息,因?yàn)樗鼈冎苯酉嗉印_@種恢復(fù)性使得模型更具容錯(cuò)性,即使某些部分的網(wǎng)絡(luò)沒有學(xué)到有效的表示,仍然可以在后續(xù)層次中修正錯(cuò)誤。與傳統(tǒng)NLP“寬而淺”的模型結(jié)構(gòu)不同,Transformer是基于block的堆疊結(jié)構(gòu),屬于“窄而深”的網(wǎng)絡(luò)結(jié)構(gòu),可以充分利用殘差連接來達(dá)到優(yōu)化網(wǎng)絡(luò)的目的。1.3.2.5.詞嵌入和位置編碼NLP技術(shù)中的詞嵌入用來將文本序列的基本單元“詞”映射為機(jī)器能夠理解的“詞向量”。最簡(jiǎn)單的詞向量表示方法是獨(dú)熱向量(one-hotvector)。假設(shè)詞典中不同詞的數(shù)量(詞典大?。镹,每個(gè)詞對(duì)應(yīng)一個(gè)從0到N-1的不同整數(shù)(索引)。詞之間的相似度。1.3.2.6.基于位置的前饋神經(jīng)網(wǎng)絡(luò)除了注意力層之外,Transformer的編碼器和解碼器中的每個(gè)block都包含一個(gè)全連接前饋網(wǎng)絡(luò)層,被命名為稱為基于位置的前饋神經(jīng)網(wǎng)絡(luò)(position-wisefeed-forwardnetwork)。這個(gè)基于位置的前饋網(wǎng)絡(luò)的關(guān)鍵在于,在處理序列數(shù)據(jù)時(shí),它為每個(gè)位置的元素分別應(yīng)用相同的變換,而不是將所有位置的元素視為相同。這意味著它能夠捕獲不同位置的不同特征和局部信息。序列元素的位置信息通過上一小節(jié)中介紹的位置編碼來引入。從網(wǎng)絡(luò)結(jié)構(gòu)上看,基于位置的前饋神經(jīng)網(wǎng)絡(luò)就是一個(gè)全連接網(wǎng)絡(luò),每個(gè)FFN層中包括兩次線性變換,兩次變換之間有一個(gè)非線性函數(shù)ReLU進(jìn)行激活。雖然線性變換在不同位置上是相同的,但它們?cè)诿恳粚又g使用不同的參數(shù)。1.4.預(yù)訓(xùn)練語言模型1.4.1.預(yù)訓(xùn)練詞嵌入模型上一節(jié)簡(jiǎn)單介紹過詞嵌入的概念,簡(jiǎn)單概括就是使用一個(gè)詞嵌入矩陣,將詞典中所有詞元的獨(dú)熱向量表示映射為固定維度且能計(jì)算不同詞元相似性的向量表示,其重點(diǎn)在于如何獲得一個(gè)有效的投影矩陣。針對(duì)一個(gè)詞典訓(xùn)練一個(gè)有效的詞嵌入矩陣需要不小的算力和時(shí)間成本。因此沒有必要對(duì)于每一個(gè)新模型都重新對(duì)詞嵌入模塊進(jìn)行訓(xùn)練,只需要預(yù)先訓(xùn)練一個(gè)有效的詞嵌入矩陣(wordembedding),直接應(yīng)用在新模型中就可以達(dá)到不錯(cuò)的效果,這就是最初的預(yù)訓(xùn)練模型。比如word2vec模型和GloVe(GlobalVectors,全局向量)模型,都是預(yù)訓(xùn)練詞嵌入模型。將訓(xùn)練好的wordembedding應(yīng)用到下游任務(wù)的過程,相當(dāng)于使用該詞嵌入矩陣對(duì)被訓(xùn)練的網(wǎng)絡(luò)的第一層進(jìn)行權(quán)重初始化。后續(xù)訓(xùn)練模型主要有兩種方式,區(qū)別在于是否鎖定embedding層的權(quán)重參數(shù)。采用凍結(jié)參數(shù)的方法(Frozen)訓(xùn)練時(shí),顧名思義將embedding層的參數(shù)鎖定,訓(xùn)練過程中映射矩陣不發(fā)生更新。采用微調(diào)法(Fine-Tuning)訓(xùn)練時(shí),不鎖定embedding層的參數(shù),訓(xùn)練時(shí)根據(jù)目標(biāo)任務(wù)的數(shù)據(jù)集更新權(quán)重。Frozen訓(xùn)練相當(dāng)于將預(yù)訓(xùn)練的embedding層當(dāng)成一個(gè)字典,用于直接地將獨(dú)熱向量轉(zhuǎn)化為帶有語義關(guān)系的詞向量。這與一些詞庫的作用是類似的,區(qū)別在于詞庫直接存儲(chǔ)詞元文本到詞向量的映射關(guān)系,F(xiàn)rozen的embedding則更有利于批量數(shù)據(jù)的并行計(jì)算。Fine-Tuning訓(xùn)練則相當(dāng)于提供了一組相當(dāng)不錯(cuò)的權(quán)重初始化參數(shù)值,能夠有效地降低模型訓(xùn)練的成本,對(duì)于下游任務(wù)的模型效果也有一定的幫助。1.4.2.上下文有關(guān)的預(yù)訓(xùn)練詞嵌入模型word2vec和GloVe都簡(jiǎn)單地給同一個(gè)詞分配一個(gè)預(yù)訓(xùn)練詞向量,而不考慮詞的上下文。然而,自然語言中存在相當(dāng)多的一次多義現(xiàn)象,在不同的上下文語境中,詞的含義可能大不相同。因此,上下文無關(guān)的詞向量表示具有明顯的局限性。1.4.3.通用預(yù)訓(xùn)練模型:GPT盡管ELMo顯著改進(jìn)了各種自然語言處理任務(wù)的解決方案,但每個(gè)解決方案仍然依賴于一個(gè)特定于任務(wù)的架構(gòu)。然而,為每一個(gè)自然語言處理任務(wù)設(shè)計(jì)一個(gè)特定的架構(gòu)實(shí)際上并不是一件容易的事。GPT(GenerativePreTraining,生成式預(yù)訓(xùn)練)模型為上下文有關(guān)的詞表示設(shè)計(jì)了任務(wù)無關(guān)的通用模型。GPT建立在Transformer解碼器的基礎(chǔ)上,預(yù)訓(xùn)練了一個(gè)用于表示文本序列的自回歸語言模型。當(dāng)將GPT應(yīng)用于下游任務(wù)時(shí),語言模型的輸出將被送到一個(gè)附加的線性輸出層,以預(yù)測(cè)任務(wù)的標(biāo)簽。與ELMo凍結(jié)預(yù)訓(xùn)練模型的參數(shù)不同,GPT在下游任務(wù)的監(jiān)督學(xué)習(xí)過程中對(duì)預(yù)訓(xùn)練Transformer解碼器中的所有參數(shù)進(jìn)行微調(diào)。GPT模型與ELMo模型的工作過程類似,也分成兩個(gè)階段:1.利用語言模型進(jìn)行無監(jiān)督預(yù)訓(xùn)練;2.通過有監(jiān)督的微調(diào)(Fine-tuning)解決下游任務(wù)。GPT使用Transformer模型的解碼器塊作為特征抽取器,其特點(diǎn)在與遮蔽的自注意力層具有的自回歸特性,只提取上下文中的“上文”信息作為特征。對(duì)于不同的下游任務(wù)如分類、包涵判斷、相似判斷、多選等。之后統(tǒng)一進(jìn)入Transformer塊進(jìn)行特征提取,最后根據(jù)任務(wù)類型通過線性層設(shè)計(jì)完成結(jié)果輸出。同為預(yù)訓(xùn)練,GPT的Fine-tuning模式與ELMo的Feature-basedPre-Training模式區(qū)別在于:ELMo模型是一種詞嵌入模型,它的目的在于生成詞的上下文有關(guān)表示,而不執(zhí)行特定的任務(wù)。應(yīng)用于下游任務(wù)時(shí),需要設(shè)計(jì)一個(gè)處理該任務(wù)的模型來使用ELMo生成的詞向量。訓(xùn)練下游任務(wù)時(shí),鎖定ELMo的雙向LSTM模型的參數(shù)進(jìn)行訓(xùn)練。而GPT模型是一種自回歸語言模型,其本身就是一個(gè)能夠處理文本生成任務(wù)的模型。應(yīng)用于其他下游任務(wù)時(shí),需要根據(jù)任務(wù)特點(diǎn)對(duì)GPT模型的結(jié)構(gòu)進(jìn)行改造(較小的改動(dòng)),使用預(yù)訓(xùn)練的GPT模型進(jìn)行參數(shù)初始化后,對(duì)整個(gè)模型進(jìn)行不鎖參的微調(diào)訓(xùn)練,以適應(yīng)具體的任務(wù)特點(diǎn)。1.4.4.預(yù)訓(xùn)練模型集大成者:BERTELMo與GPT兩者各有優(yōu)勢(shì)。ELMo模型的優(yōu)勢(shì)在于其雙向架構(gòu)能夠同時(shí)提取到目標(biāo)詞元上下文兩個(gè)方向上的特征,而GPT只能提取到順序的特征;GPT模型的優(yōu)勢(shì)在于其通用性,對(duì)于不同的下游任務(wù)只需要對(duì)原本的模型進(jìn)行相當(dāng)小的結(jié)構(gòu)調(diào)整,而ELMo則需要設(shè)計(jì)處理下游任務(wù)的模型結(jié)構(gòu)。2018年Google的Devlin等人提出的BERT(BidirectionalEncoderRepresentationsfromTransformers)則集合了兩種方法之長(zhǎng),得到了比前兩者更優(yōu)秀的表現(xiàn)。1.5.大語言模型:智能涌現(xiàn)在2018年推出了GPT模型之后,OpenAI又沿著原本的技術(shù)路線于2019、2020年推出了后兩代的GPT模型。GPT-2相比于GPT,在結(jié)構(gòu)上基本沒有變化,仍舊使用Transformer解碼器來深入挖掘語言模型的潛力。為了挖掘語言模型的通用性,GPT-2在訓(xùn)練模式上放棄了下游任務(wù)的微調(diào),而是采用純無監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練。在完成下游任務(wù)時(shí),不再根據(jù)人物特點(diǎn)對(duì)輸入的數(shù)據(jù)進(jìn)行改造,而是讓模型自己識(shí)別任務(wù)的目標(biāo)。GPT-2試圖實(shí)現(xiàn)zero-shot的效果,這是相當(dāng)具有新意度的目標(biāo),但實(shí)現(xiàn)起來也是相當(dāng)困難。GPT-2將參數(shù)量增大到了15億仍沒有達(dá)到性能提升的瓶頸,這激勵(lì)了OpenAI團(tuán)隊(duì)繼續(xù)做大GPT模型的規(guī)模。到了GPT-3模型問世,參數(shù)量達(dá)到1750億,終于展現(xiàn)出了相當(dāng)炸裂的效果,其智能涌現(xiàn)能力標(biāo)志著人工智能模型的自然語言處理能力進(jìn)入了下一個(gè)階段。1.5.1.不微調(diào)的預(yù)訓(xùn)練語言模型對(duì)于OpenAI團(tuán)隊(duì)來說,GPT模型在公布的短短4個(gè)月時(shí)間就被Google的團(tuán)隊(duì)在更大的訓(xùn)練集上訓(xùn)練出來的更大規(guī)模的BERT模型擊敗。這讓他們意識(shí)到通過增大規(guī)模挖掘語言模型的性能仍有很大的空間,因此他們堆積了更多的Transformer塊,訓(xùn)練了一個(gè)擁有15億參數(shù)的模型。然而,僅僅增加模型的規(guī)模不足以作為一項(xiàng)有新意的研究。因此,OpenAI在訓(xùn)練方式上做出了改變,并且對(duì)模型提出了更具有新意的目標(biāo)——實(shí)現(xiàn)一個(gè)zero-shot的模型。Zeroshot指語言模型要達(dá)到這樣的一個(gè)效果:對(duì)于一個(gè)自然語言處理任務(wù),僅使用自然語言對(duì)任務(wù)進(jìn)行描述,不提供任何樣例,更不針對(duì)該類任務(wù)進(jìn)行任何監(jiān)督訓(xùn)練或微調(diào),讓模型自己理解任務(wù)的描述并完成任務(wù)。GPT-2的核心觀點(diǎn)也體現(xiàn)在其論文的標(biāo)題中“LanguageModelsareUnsupervisedMultitaskLearners”,一個(gè)優(yōu)秀的語言模型是不需要經(jīng)過監(jiān)督學(xué)習(xí)就可以完成多種任務(wù)的。這樣的語言模型已經(jīng)非常接近于人們觀念中的強(qiáng)人工智能了,可惜這個(gè)目標(biāo)對(duì)于當(dāng)時(shí)的技術(shù)來說過于超前,以GPT-2模型的規(guī)模還遠(yuǎn)未達(dá)到能夠完成zero-shot的程度。雖然GPT-2的性能距離其提出的目標(biāo)還有很大的差距,但在OpenAI團(tuán)隊(duì)的實(shí)驗(yàn)中,隨著規(guī)模的增大,模型在閱讀理解、翻譯、問答等NLP任務(wù)中的表現(xiàn)仍在以一個(gè)接近對(duì)數(shù)增長(zhǎng)的趨勢(shì)增加。這表明通過增大模型規(guī)模還能繼續(xù)提升模型的性能,模型參數(shù)數(shù)量級(jí)的跨越式增長(zhǎng)也成了后續(xù)幾代GPT的必備特征。1.5.2.提示學(xué)習(xí)-PromptGPT-2在探索模型zero-shot能力的時(shí)候,采用了在輸入上添加任務(wù)相關(guān)提示詞的方式?;剡^頭看,GPT-2此時(shí)的做法不小心推開了提示學(xué)習(xí)的大門,啟發(fā)了自然語言處理繼“傳統(tǒng)機(jī)器學(xué)習(xí)模型范式”、“神經(jīng)網(wǎng)絡(luò)范式”、“‘預(yù)訓(xùn)練+微調(diào)’范式”之后的“第四范式”——“‘預(yù)訓(xùn)練+提示+預(yù)測(cè)’范式”的發(fā)展。2020年,OpenAI在論文《LanguageModelsareFew-ShotLearners》,也就是GPT-3的論文帶領(lǐng)了提示學(xué)習(xí)(promptlearning)的發(fā)展——提示學(xué)習(xí)的核心思想是通過構(gòu)造一種“提示”(prompt)來引導(dǎo)預(yù)訓(xùn)練模型在特定任務(wù)上給出正確的輸出。這與直接提供標(biāo)準(zhǔn)問題格式的訓(xùn)練數(shù)據(jù)不同,提示學(xué)習(xí)試圖以更自然的方式利用模型預(yù)訓(xùn)練時(shí)學(xué)到的知識(shí)和技能。提示學(xué)習(xí)的關(guān)鍵在于找到有效的提示,這些提示能夠激活預(yù)訓(xùn)練模型中的知識(shí),使其能夠更好地執(zhí)行下游任務(wù)。例如,在一個(gè)情感分析任務(wù)中,而不是直接問模型一個(gè)句子的情感,我們可能會(huì)添加一個(gè)提示:“這段話的態(tài)度是[MASK]的。”,然后讓模型預(yù)測(cè)填充在[MASK]處的詞,比如“積極”或“消極”。與其說提示學(xué)習(xí)是一種訓(xùn)練方法,不如說是在人工智能的理解能力還不完善的階段中探索如何與模型溝通的過程,本質(zhì)是給任務(wù)找到一個(gè)讓模型能夠更準(zhǔn)確理解的表達(dá)方式。最初的提示學(xué)習(xí)采用人工提示(ManualPrompts),需要研究人員根據(jù)任務(wù)和模型知識(shí)構(gòu)造有效的提示。這種方法的優(yōu)點(diǎn)是可以利用人類的直覺和專業(yè)知識(shí)來引導(dǎo)模型,但缺點(diǎn)是耗時(shí)且可能無法找到最優(yōu)提示。隨著研究的進(jìn)展,出現(xiàn)了自動(dòng)生成提示(AutomaticPrompts)的方法。這些方法使用搜索算法、強(qiáng)化學(xué)習(xí)或者梯度下降等技術(shù)來自動(dòng)尋找或優(yōu)化提示,以提高模型在特定任務(wù)上的表現(xiàn)。1.5.3.大語言模型的智能涌現(xiàn)——GPT-3.5和ChatGPT人工智能領(lǐng)域?qū)τ谟楷F(xiàn)能力(EmergentAbilities)的定義為,如果模型的某種能力僅在大模型上表現(xiàn),而不能在小模型中表現(xiàn)出來,即稱為“涌現(xiàn)能力”。換言之,涌現(xiàn)能力是模型規(guī)模超過某一閾值時(shí)才能擁有的特性,也就是人們常說的“量變產(chǎn)生質(zhì)變”。這種現(xiàn)象通常出現(xiàn)在如GPT-3或更大規(guī)模的語言模型中,當(dāng)模型的參數(shù)數(shù)量大幅增加,使得模型能夠?qū)W習(xí)到更加復(fù)雜和抽象的模式。在模型規(guī)模變大的過程中,某些能力的提升并不是線性的。即在特定的規(guī)模閾值之前,模型的能力提升相對(duì)平緩;一旦超過這個(gè)閾值,能力會(huì)突然大幅提升。涌現(xiàn)往往意味著質(zhì)的變化,模型不僅在量上做了擴(kuò)展,還可能獲得了原本沒有的新功能,例如更好的推理能力、更準(zhǔn)確的翻譯能力,甚至是創(chuàng)造力和幽默感的展現(xiàn)。涌現(xiàn)能力的出現(xiàn)通常是不可預(yù)測(cè)的,研究者無法準(zhǔn)確預(yù)知哪種能力會(huì)在何時(shí)何種規(guī)模的模型中出現(xiàn)。比如上一小節(jié)提到的GPT-3的上下文學(xué)習(xí)能力,當(dāng)模型的參數(shù)規(guī)模增大到1750億時(shí),模型突然展現(xiàn)出了該能力。上下文學(xué)習(xí)的能力來源及為什么上下文學(xué)習(xí)可以泛化,仍然難以溯源。實(shí)際上,初代的GPT-3的功能并沒有后面的ChatGPT展現(xiàn)出來的這么強(qiáng),但后來的實(shí)驗(yàn)證明,初代GPT-3有著非常強(qiáng)的潛力。這些潛力后來被代碼訓(xùn)練、指令微調(diào)(instructiontuning)和基于人類反饋的強(qiáng)化學(xué)習(xí)(reinforcementlearningwithhumanfeedback,RLHF)解鎖,最終體的ChatGPT展示出極為強(qiáng)大的涌現(xiàn)能力。1.5.3.1.代碼訓(xùn)練和指令微調(diào)在GPT-3進(jìn)化到GPT-3.5的過程中,OpenAI主要在兩個(gè)方向上的探索取得了成果:在代碼上訓(xùn)練(Trainingoncode)和指令微調(diào)(InstructionTuning)。Codex是OpenAI為了擴(kuò)展GPT-3的代碼能力訓(xùn)練的一個(gè)大語言模型,最初的目標(biāo)功能為代碼補(bǔ)全。最初的Codex模型使用了GitHub上的大量開源代碼作為數(shù)據(jù)集對(duì)120億參數(shù)的小規(guī)模GPT-3進(jìn)行了微調(diào)訓(xùn)練,但最終得到的模型效果并不算太好,這個(gè)模型后面演變成了OpenAIAPI中的“code-cushman-001”模型。在另一個(gè)方向上,OpenAI為了讓大語言模型能夠更好地理解人類發(fā)布的任務(wù),對(duì)GPT-3進(jìn)行了指令微調(diào)(InstructionTuning)訓(xùn)練。傳統(tǒng)的語言模型通常是通過大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,從而學(xué)習(xí)語言的基礎(chǔ)結(jié)構(gòu)和知識(shí)。然而,它們不總是能夠理解和執(zhí)行復(fù)雜的用戶指令。指令微調(diào)通過對(duì)模型進(jìn)行額外的訓(xùn)練,使其更好地遵循用戶的指令來完成特定任務(wù)。OpenAI雇傭一批標(biāo)注人員對(duì)訓(xùn)練集中的數(shù)據(jù)標(biāo)注了指令,標(biāo)注后的數(shù)據(jù)集中的每一個(gè)樣本包括“輸入”、“指令”、“標(biāo)簽”三個(gè)部分。用這個(gè)訓(xùn)練集對(duì)GPT-3模型進(jìn)行有監(jiān)督微調(diào)得到了初始版本的InstructGPT模型,在OpenAIAPI中的代號(hào)為“Instruct-davinvi-beta”和“text-davinci-001”兩個(gè)模型接口。從2020年7月到2022年4月,OpenAI投入了大量的資源從代碼訓(xùn)練和指令微調(diào)兩個(gè)方向來增強(qiáng)GPT-3的性能,直到完成了代號(hào)為“code-davinci-002”的Codex模型版本。雖然此版本模型被用做Codex產(chǎn)品,但其針對(duì)自然語言的性能已經(jīng)達(dá)到了下一個(gè)水平,從這個(gè)版本開始,GPT產(chǎn)品進(jìn)入了GPT-3.5階段?!癱ode-davinci-002”和“text-davinci-002”是GPT-3.5模型的初始版本,其中“text-davinci-002”是由“code-davinci-002”經(jīng)過有監(jiān)督指令微調(diào)得到的(更符合人類的表達(dá)習(xí)慣),這兩個(gè)模型分別用于代碼和文本。除了代碼生成與理解能力以外,它們比初代GPT-3具有更多的“涌現(xiàn)”能力:響應(yīng)人類指令:GPT-3模型的輸出主要是訓(xùn)練集中常見的句子。GPT-3.5模型會(huì)針對(duì)指令或提示詞生成更合理的答案(而不是相關(guān)但無用的句子)。這種能力是指令微調(diào)的直接產(chǎn)物。泛化到?jīng)]有見過的任務(wù):當(dāng)用于調(diào)整模型的指令數(shù)量超過一定的規(guī)模時(shí),模型就可以在從沒見過的新指令上也能生成有效的回答。相當(dāng)于解鎖了模型在zero-shot場(chǎng)景上的能力,這種泛化能力指令的規(guī)模達(dá)到一定程度的時(shí)候自動(dòng)出現(xiàn)的,與模型規(guī)模導(dǎo)致的“涌現(xiàn)”有類似的特征。使用思維鏈(Chain-of-Thought)進(jìn)行復(fù)雜推理:思維鏈推理能力相當(dāng)重要,被學(xué)術(shù)界認(rèn)為是大語言模型“涌現(xiàn)”能力的代表。而使用思維鏈進(jìn)行復(fù)雜推理的能力并非來自指令微調(diào),而是很可能來自在大量代碼數(shù)據(jù)集上的訓(xùn)練。這也有一定的解釋空間:面向過程的編程類似于人類逐步解決問題,面向?qū)ο蟮木幊填愃朴谌祟悓栴}分解。思維鏈的基本概念是模仿人類解決問題時(shí)的思維過程。在處理復(fù)雜問題時(shí),人們通常會(huì)一步步推導(dǎo)出結(jié)果。這些步驟包括構(gòu)建問題的中間表征、進(jìn)行邏輯推理、計(jì)算或回憶知識(shí)點(diǎn)等。這個(gè)過程為模型提供了一個(gè)更加清晰的路徑來解決問題,并有助于它更好地理解問題的結(jié)構(gòu)和所需的解決方案。在應(yīng)用思維鏈的技術(shù)時(shí),模型被訓(xùn)練以生成詳細(xì)的解釋或描述它是如何一步步達(dá)到最終答案的。例如,當(dāng)問到一個(gè)數(shù)學(xué)問題時(shí),模型不僅會(huì)給出最終的答案,還會(huì)展示出得到這個(gè)答案的具體步驟。這使得最終的答案更可信,也更容易被用戶理解和驗(yàn)證。思維鏈作為大模型“涌現(xiàn)”的重要代表,具有以下幾個(gè)優(yōu)勢(shì):(1)可解釋性:通過生成一系列推理步驟,思維鏈增強(qiáng)了模型的可解釋性。用戶可以看到模型是如何逐步得出答案的,這在教育或需要解釋的場(chǎng)合尤其有用。(2)準(zhǔn)確性:推理過程有助于模型集中注意力于任務(wù)的關(guān)鍵部分,可能提高模型在解決復(fù)雜任務(wù)上的準(zhǔn)確率。(3)學(xué)習(xí)和調(diào)試:展示中間步驟也方便開發(fā)者和研究人員理解模型的行為,從而對(duì)模型進(jìn)行調(diào)整和改進(jìn)。1.5.3.2.基于人類反饋的強(qiáng)化學(xué)習(xí)“text-davinci-002”版本的GPT-3.5模型雖然已經(jīng)具有非常出眾的性能,但要作為公開發(fā)布的產(chǎn)品還具有諸多隱患,歷史上因?yàn)槟P洼敵鼍哂袪?zhēng)議性的響應(yīng)導(dǎo)致產(chǎn)品下架的例子有很多。通過語料庫訓(xùn)練出來的大語言模型對(duì)于現(xiàn)代社會(huì)的敏感話題并沒有特別的認(rèn)知,OpenAI在《Traininglanguagemodelstofollowinstructionswithhumanfeedback》文章中提出了基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningwithHumanFeedback,RLHF)來應(yīng)對(duì)這個(gè)問題。實(shí)際上這是InstructGPT相對(duì)于GPT-3的研究,OpenAI將其應(yīng)用到GPT-3.5上得到了ChatGPT。InstructGPT中,基于人類反饋的強(qiáng)化學(xué)習(xí)的訓(xùn)練過程主要分為三個(gè)階段:(1)有監(jiān)督的微調(diào)(SupervisedFine-Tuning)在這一步中,OpenAI人工收集了1.3萬條prompts用于訓(xùn)練,這些prompts一部分是從用戶向GPT-3提問中(GPT-3的API)篩選出來的,另一部分是由雇傭的標(biāo)簽員寫出來的。再由標(biāo)簽員將prompts的答案也寫出來,作為標(biāo)簽,放到GPT-3模型里做有監(jiān)督的微調(diào),得到一個(gè)微調(diào)后的模型(下面簡(jiǎn)稱為“SFT”)。(2)人工對(duì)模型輸出進(jìn)行標(biāo)注,訓(xùn)練強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)模型(RewardModel)使用另外3.3萬條prompts作為SFT的輸入,得到一批輸出(這些prompts也包括從GPT-3的API篩選以及標(biāo)簽員人工生成)。再由標(biāo)簽員對(duì)SFT多次生成的輸出進(jìn)行排序。使用prompts與人工排序后的答案作為訓(xùn)練集,訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型。該獎(jiǎng)勵(lì)模型的作用是對(duì)prompts輸入SFT后得到的輸出進(jìn)行打分,這些得分需要符合標(biāo)簽員做出的排序。1.5.4.大模型智能涌現(xiàn)能力的來源上文提到了關(guān)于大語言模型的“涌現(xiàn)”能力,是模型規(guī)模超過一定閾值后才能夠擁有的。學(xué)術(shù)界目前還沒有對(duì)大模型產(chǎn)生“涌現(xiàn)”現(xiàn)象的原因做出解釋和論證,只有基于測(cè)試和比較的分析結(jié)果。本小結(jié)將解答一部分關(guān)于“涌現(xiàn)”能力的疑問。模型需要多大規(guī)模才會(huì)出現(xiàn)“涌現(xiàn)”?YaoFu等人在文章《HowdoesGPTObtainitsAbility?TracingEmergentAbilitiesofLanguageModelstotheirSources》給出了兩個(gè)數(shù)字:620億和1750億。以思維鏈作為判斷模型出現(xiàn)“涌現(xiàn)”能力的標(biāo)準(zhǔn):(1)模型至少需要620億,思維鏈的效果才能大于標(biāo)準(zhǔn)的提示詞方法。(2)模型至少需要1750億(GPT3的規(guī)模),思維鏈的效果才能大于精調(diào)小模型的效果。代碼訓(xùn)練、指令微調(diào)、RLHF等調(diào)整對(duì)模型做了什么,產(chǎn)生了不同的“涌現(xiàn)”能力?在文章《HowdoesGPTObtainitsAbility?TracingEmergentAbilitiesofLanguageModelstotheirSources》中,作者仔細(xì)檢查了GPT-3.5系列的能力范圍,并追溯了它們所有突現(xiàn)能力的來源。初代GPT-3模型通過預(yù)訓(xùn)練獲得生成能力、世界知識(shí)和上下文學(xué)習(xí)能力。然后通過指令微調(diào)的模型分支獲得了遵循指令和能泛化到?jīng)]有見過的任務(wù)的能力。經(jīng)過代碼訓(xùn)練的分支模型則獲得了代碼理解的能力,作為代碼訓(xùn)練的副產(chǎn)品,模型同時(shí)潛在地獲得了復(fù)雜推理的能力。結(jié)合這兩個(gè)分支,“code-davinci-002”似乎是具有所有強(qiáng)大能力的最強(qiáng)GPT-3.5模型。接下來通過有監(jiān)督的指令微調(diào)和RLHF通過犧牲模型能力換取與人類對(duì)齊,即對(duì)齊稅。RLHF使模型能夠生成更翔實(shí)和公正的答案,同時(shí)拒絕其知識(shí)范圍之外的問題。對(duì)于采用不同的訓(xùn)練方法調(diào)整GPT-3模型所引發(fā)的這些新的“涌現(xiàn)”能力,到底是這些方法給模型“注入”了新的能力,還是預(yù)訓(xùn)練模型本身就具備了這些能力的潛力,只是被調(diào)整后“解鎖”了?對(duì)于鎖定模型參數(shù)的調(diào)整,比如提示學(xué)習(xí),這個(gè)問題的答案顯然是“解鎖”。而對(duì)于不鎖參的調(diào)整,這其實(shí)主要取決于訓(xùn)練樣本的數(shù)據(jù)量。舉個(gè)例子,在GPT-3進(jìn)化到GPT-3.5的過程中,采用在代碼上訓(xùn)練的方式給模型“注入”了代碼生成能力和思維鏈復(fù)雜推理能力,這兩個(gè)能力實(shí)際上是通過代碼訓(xùn)練注入的。因?yàn)槠浯a訓(xùn)練集的規(guī)模達(dá)到了與文本語料庫相近的量級(jí),后幾代模型的訓(xùn)練集也都包括相當(dāng)一部分比例的代碼。因此,代碼訓(xùn)練可以視為一種偏邏輯的自然語言對(duì)預(yù)訓(xùn)練語料庫的補(bǔ)充。而在GPT-3.5調(diào)教到ChatGPT的過程中使用的基于人類反饋的強(qiáng)化學(xué)習(xí)方法,則應(yīng)該別認(rèn)定為“解鎖”了模型本來就具備的能力(多輪對(duì)話、安全中立表達(dá)等)。因?yàn)樵贗nstructGPT論文中披露的訓(xùn)練數(shù)據(jù),prompts的量級(jí)只有10萬以內(nèi),這與預(yù)訓(xùn)練模型本身的訓(xùn)練集規(guī)模相差甚遠(yuǎn),微調(diào)對(duì)權(quán)重的改變并不能起到“注入”知識(shí)的效果。此外,經(jīng)過RLHF調(diào)教的ChatGPT實(shí)際上在“解鎖”了新的能力的同時(shí),也“隱藏”了一部分原有能力的表現(xiàn)。這實(shí)際上也表明,小數(shù)據(jù)規(guī)模的微調(diào)訓(xùn)練對(duì)于大語言模型來說,只能改變其原有能力的側(cè)重點(diǎn)。如果想要繼續(xù)發(fā)展大模型的“涌現(xiàn)”能力,應(yīng)該怎么做?在通過微調(diào)無法“解鎖”模型的更多能力時(shí)(或者“解鎖”了新能力但無法兼顧原有能力的性能),只能夠更大的語料庫訓(xùn)練更深的預(yù)訓(xùn)練模型。2.大語言模型的應(yīng)用與展望在當(dāng)今的人工智能領(lǐng)域,大語言模型的興起無疑是其中的一顆璀璨明珠。它們不僅重新定義了機(jī)器理解和生成語言的能力,而且其應(yīng)用范圍的廣泛性正在觸及社會(huì)的每一個(gè)角落。本章旨在探討大語言模型的應(yīng)用,它們?nèi)绾纬晒m配于特定領(lǐng)域的需求,以及多模態(tài)大模型在未來的應(yīng)用前景和潛在的發(fā)展方向。首先,我們將探討大語言模型的實(shí)際應(yīng)用。這些模型以其卓越的文本生成和理解能力,已經(jīng)在文學(xué)創(chuàng)作、編程、法律咨詢等多個(gè)領(lǐng)域展現(xiàn)出了其價(jià)值。通過自然語言處理技術(shù),它們能夠從大規(guī)模數(shù)據(jù)中提煉信息,為決策提供支持,甚至在某些情況下,替代專業(yè)人士進(jìn)行工作。其次,文章將分析大語言模型如何根據(jù)不同領(lǐng)域的特定需求進(jìn)行調(diào)整和適配。在醫(yī)療、金融、教育等領(lǐng)域,模型不僅要理解專業(yè)術(shù)語,還要適應(yīng)特定的應(yīng)用場(chǎng)景和數(shù)據(jù)處理需求。我們會(huì)看到,通過微調(diào)和定制化訓(xùn)練,這些模型如何更精確地服務(wù)于特定的行業(yè)。最后,我們將討論多模態(tài)大模型的應(yīng)用與展望。隨著技術(shù)的發(fā)展,單一模態(tài)的輸入已無法滿足日益復(fù)雜的需求。多模態(tài)模型通過整合文本、圖像、聲音等多種信息來源,為我們提供了一個(gè)更為豐富和綜合的世界理解。從增強(qiáng)現(xiàn)實(shí)到自動(dòng)駕駛汽車,多模態(tài)模型正開辟著人工智能的新天地。通過本章,我們將了解大語言模型和多模態(tài)模型在現(xiàn)實(shí)世界中的應(yīng)用,探索它們?cè)诟鱾€(gè)領(lǐng)域的適配過程,以及它們將如何繼續(xù)推動(dòng)技術(shù)的邊界,影響未來的發(fā)展趨勢(shì)。2.1.大語言模型的應(yīng)用在當(dāng)今信息化社會(huì)的蓬勃發(fā)展中,大型語言模型的崛起標(biāo)志著人工智能領(lǐng)域的一次重大突破。它們不僅僅是簡(jiǎn)單的技術(shù)產(chǎn)品,更是人類語言理解和創(chuàng)造能力的一個(gè)顯著躍進(jìn)。大型語言模型如GPT和BERT等,憑借其強(qiáng)大的自然語言處理能力,正在重新定義多個(gè)行業(yè)的工作方式,為人類活動(dòng)開辟了新的道路。這些模型通過分析和學(xué)習(xí)互聯(lián)網(wǎng)上海量級(jí)的文本數(shù)據(jù),已經(jīng)掌握了生成、總結(jié)、提取、聚類、分類、檢索和改寫等多種復(fù)雜的語言處理功能。在這個(gè)基礎(chǔ)上,大型語言模型已經(jīng)被應(yīng)用于各種場(chǎng)景,如創(chuàng)作高質(zhì)量文章、提供法律和醫(yī)療文檔的咨詢、自動(dòng)化客戶服務(wù)回復(fù),甚至輔助編程和數(shù)據(jù)分析。它們的出現(xiàn),使得從繁復(fù)的文本中提取信息、生成新內(nèi)容以及對(duì)現(xiàn)有內(nèi)容進(jìn)行再加工變得前所未有地高效和精準(zhǔn)。對(duì)于企業(yè)來說,語言模型正變得不可或缺,它們能夠處理大量的客戶數(shù)據(jù),提供個(gè)性化的服務(wù),同時(shí)優(yōu)化操作流程,減少成本。在教育領(lǐng)域,這些模型不僅為學(xué)生提供定制化學(xué)習(xí)內(nèi)容,而且還能評(píng)估學(xué)習(xí)成果,甚至幫助教師設(shè)計(jì)課程。在媒體和娛樂行業(yè),內(nèi)容的創(chuàng)作和改寫變得更加多元和富有創(chuàng)意,使得個(gè)性化的內(nèi)容推薦成為可能。本節(jié)將探討大型語言模型的這些核心功能以及它們的實(shí)際應(yīng)用案例,從而揭示它們?nèi)绾斡绊懖⒏纳莆覀兊墓ぷ骱蜕睢kS著技術(shù)的進(jìn)步和應(yīng)用的深入,我們的工作效率能夠在人工智能的推動(dòng)下不斷提高。本節(jié)中的各種功能仍有無數(shù)的應(yīng)用有待發(fā)掘,本文旨在提供一些靈感。大語言模型(LargeLanguageModal,LLM)的核心能力大致分為:生成(Generate)、總結(jié)(Summarize)、聚類(Cluster)、提取(Extract)、分類(Classify)、檢索(Search)與改寫(Rewrite)七部分。本節(jié)將介紹這些能力并列舉一些應(yīng)用,同時(shí)對(duì)部分能力在ChatGPT上嘗試并附帶了實(shí)際響應(yīng)結(jié)果。1、生成(Generate)生成是LLM最核心的能力。當(dāng)談?wù)摰絃LM時(shí),首先可能想到的是其能夠生成原始且連貫的文本內(nèi)容。其能力的建立來源于對(duì)大量的文本進(jìn)行訓(xùn)練,并捕捉了語言的內(nèi)在聯(lián)系與人類的使用模式。充分利用模型的生成能力可以完成對(duì)話式(chat)&生成式(completion)應(yīng)用。對(duì)于對(duì)話式應(yīng)用,典型應(yīng)用為聊天機(jī)器人,用戶輸入問題,LLM對(duì)問題進(jìn)行響應(yīng)回答。對(duì)于生成式應(yīng)用,典型應(yīng)用為文章續(xù)寫、摘要生成。比如,我們?cè)趯懸欢螤I(yíng)銷文案時(shí),我們寫一部分上下文,LLM可以在此基礎(chǔ)上對(duì)文案進(jìn)行續(xù)寫,直至完成整個(gè)段落或整片文章。大型語言模型在文本生成方面的能力是它們最為人稱道的特性之一。它們不僅可以生成高質(zhì)量的自然語言文本,而且還能在一定程度上模擬特定風(fēng)格或作者的寫作方式。此外,它們能夠生成結(jié)構(gòu)化的輸出,比如編寫可執(zhí)行的編程代碼或者格式化良好的報(bào)告。應(yīng)用場(chǎng)景:在內(nèi)容創(chuàng)作領(lǐng)域,比如自動(dòng)撰寫新聞稿、博客文章或社交媒體帖子,大型語言模型可以大幅度提高效率。對(duì)于程序員來說,這些模型可以輔助編寫代碼,提供代碼補(bǔ)全或者整段代碼生成。在創(chuàng)意寫作方面,它們可以幫助作家克服創(chuàng)作障礙,提供靈感,甚至生成完整的詩歌或小說草稿。在沒有提供更多信息的情況下,讓ChatGPT生成一篇關(guān)于氣候變化影響的文章,模型僅用了十幾秒就完成了任務(wù)。2、總結(jié)(Summarize)總結(jié)是LLM的重要能力。通過PromptEngineering,LLM可對(duì)用戶輸入的文本提煉總結(jié)。在工作中我們每天會(huì)處理大量會(huì)議、報(bào)告、文章、郵件等文本內(nèi)容,LLM總結(jié)能力有助于快速獲取關(guān)鍵信息,提升工作效率。利用其總結(jié)提煉能力可以產(chǎn)生許多有價(jià)值應(yīng)用。比如,每次參加線上或線下會(huì)議,會(huì)后需形成會(huì)議記錄,并總結(jié)會(huì)議重要觀點(diǎn)與執(zhí)行計(jì)劃。LLM利用完備的語音記錄可完成會(huì)議內(nèi)容與重要觀點(diǎn)的總結(jié)。大型語言模型的文本總結(jié)能力允許它們處理大量信息,并從中提取關(guān)鍵點(diǎn)。這些模型通過理解文本的整體內(nèi)容和上下文關(guān)系,可以生成簡(jiǎn)潔的摘要,這對(duì)于那些需要快速獲取信息精華的人非常有用。應(yīng)用場(chǎng)景:在企業(yè)環(huán)境中,模型可以用來生成會(huì)議記錄的摘要,或者將長(zhǎng)篇報(bào)告壓縮成高層管理者的簡(jiǎn)報(bào)。在學(xué)術(shù)研究中,自動(dòng)生成文獻(xiàn)綜述或研究報(bào)告摘要可以節(jié)省研究人員大量的時(shí)間。新聞機(jī)構(gòu)可以使用這些模型來提供新聞故事的快速摘要,供忙碌的讀者閱讀。提供一篇研究報(bào)告,讓ChatGPT總結(jié)內(nèi)容給出摘要,用時(shí)不超過一分鐘。3、提?。‥xtract)文本提取是通過LLM提取文本中的關(guān)鍵信息。比如命名實(shí)體提取,利用LLM提取文本中的時(shí)間、地點(diǎn)、人物等信息,旨在將文本關(guān)鍵信息進(jìn)行結(jié)構(gòu)化表示。除此之外,還可用于提取摘錄合同、法律條款中的關(guān)鍵信息。語言模型在信息提取方面的應(yīng)用基于其能夠識(shí)別和解析文本中的特定數(shù)據(jù)點(diǎn)。它們可以精確地從無結(jié)構(gòu)數(shù)據(jù)中識(shí)別出人名、地點(diǎn)、日期等實(shí)體,并且能夠從復(fù)雜的文本中提取關(guān)鍵的事實(shí)和數(shù)字。應(yīng)用場(chǎng)景:在法律行業(yè),這些模型可以從復(fù)雜的合同文檔中提取關(guān)鍵條款和條件。在醫(yī)療領(lǐng)域,模型可以從病人的臨床筆記中提取關(guān)鍵的健康信息,輔助醫(yī)生和護(hù)士快速獲取病人的關(guān)鍵數(shù)據(jù)。對(duì)于商業(yè)情報(bào),模型能夠從各種報(bào)告和新聞文章中提取市場(chǎng)數(shù)據(jù)和競(jìng)爭(zhēng)情報(bào)。提供一家公司的招股說明書,讓ChatGPT回答文檔中的相關(guān)信息,用時(shí)兩分鐘以內(nèi)。從結(jié)果上來看,模型能夠準(zhǔn)確回答一些字段匹配度高的問題,但對(duì)于PDF文件中的表格信息,讀取的完整度并不高(只列出了四家客戶)。同時(shí),對(duì)于任務(wù)要求中“完整年度”的理解并不正確。將問題改為“該公司最近一個(gè)完整年度,產(chǎn)品銷售的前三大客戶是哪些公司?”,甚至無法定位到相關(guān)表格。說明ChatGPT對(duì)于一個(gè)大文檔(大于5MB)的信息讀取,能夠做到“提取”信息,但并不能足夠精確地“理解”所有信息。4、分類(Classify)分類旨在通過LLM對(duì)文本類別劃分。大模型對(duì)文本內(nèi)容分類的優(yōu)勢(shì)在于強(qiáng)語義理解能力與小樣本學(xué)習(xí)能力。也就是說其不需要樣本或需要少量樣本學(xué)習(xí)即可具備強(qiáng)文本分類能力。而這與通過大量語料訓(xùn)練的垂域模型相比,在開發(fā)成本與性能上更具優(yōu)勢(shì)。比如,互聯(lián)網(wǎng)社交媒體每天產(chǎn)生大量文本數(shù)據(jù),商家通過分析文本數(shù)據(jù)評(píng)估對(duì)于公眾對(duì)于產(chǎn)品的反饋,政府通過分析平臺(tái)數(shù)據(jù)評(píng)估公眾對(duì)于政策、事件的態(tài)度。語言模型能夠?qū)⑽谋練w類到預(yù)先定義的類別中,這基于對(duì)文本內(nèi)容的深層語義理解。這些模型可以被訓(xùn)練來識(shí)別文本的主題、情感傾向,甚至是作者的意圖。應(yīng)用場(chǎng)景:在企業(yè)中,模型可以用于自動(dòng)對(duì)客戶查詢進(jìn)行分類,以便將其分派給最合適的服務(wù)代表。在網(wǎng)絡(luò)安全領(lǐng)域,它們可以分類電子郵件以識(shí)別垃圾郵件和網(wǎng)絡(luò)釣魚嘗試。教育技術(shù)領(lǐng)域可以利用分類功能來評(píng)估學(xué)生的開放式回答和作文。5、聚類(Cluster)通過對(duì)大量文本數(shù)據(jù)進(jìn)行語義分析,大型語言模型可以將主題或內(nèi)容相似的文本分組在一起。這種聚類能力使得它們可以識(shí)別模式和關(guān)聯(lián),甚至在沒有明確標(biāo)簽的情況下也能進(jìn)行。應(yīng)用:在客戶服務(wù)領(lǐng)域,聚類技術(shù)可以幫助企業(yè)對(duì)顧客反饋進(jìn)行分類,以便更有效地響應(yīng)并解決問題。在內(nèi)容管理系統(tǒng)中,它可以幫助自動(dòng)整理和歸檔文檔。而在社交媒體分析中,聚類可以用來追蹤特定話題的趨勢(shì)或者公眾情緒的變化。上一個(gè)新聞分類樣例中,ChatGPT按照任務(wù)要求的條件(新聞情緒)將這些新聞進(jìn)行了聚類。6、檢索(Search)文本檢索是根據(jù)給定文本在目標(biāo)文檔中檢索出相似文本。最常用的是搜索引擎,我們希望搜索引擎根據(jù)輸入返回高度相關(guān)的內(nèi)容或鏈接。而傳統(tǒng)方式采用關(guān)鍵詞匹配,只有全部或部分關(guān)鍵詞在檢索文檔中命中返回目標(biāo)文檔。這對(duì)于檢索質(zhì)量是不利的,原因是對(duì)于關(guān)鍵詞未匹配但語義高度相關(guān)的內(nèi)容沒有召回。在檢索應(yīng)用中,LLM的優(yōu)勢(shì)在于能夠?qū)崿F(xiàn)語義級(jí)別匹配。大型語言模型可以理解自然語言查詢,從而檢索和返回相關(guān)信息。它們能夠解析查詢的語義,搜索大規(guī)模的文本數(shù)據(jù)集,并找到與查詢意圖最匹配的結(jié)果。應(yīng)用:在線搜索引擎可以利用這些模型提供更準(zhǔn)確的搜索結(jié)果。企業(yè)可以使用這些工具從內(nèi)部文檔庫中檢索特定的商業(yè)文檔。而圖書館和檔案館可以使用語言模型來幫助研究人員和公眾找到特定的歷史記錄或文檔。檢索與前面的提取有一部分類似之處,區(qū)別在于被檢索數(shù)據(jù)庫的規(guī)模,由于數(shù)據(jù)規(guī)模的限制不在此處展示樣例。7、改寫(Rewrite)文本改寫是通過LLM對(duì)輸入文本按照要求進(jìn)行潤(rùn)色、糾錯(cuò)。常見的應(yīng)用為文本糾錯(cuò),例如,在稿件撰寫、編輯時(shí)可能出現(xiàn)詞語拼寫錯(cuò)誤、句子語法錯(cuò)誤,利用通過LLM與提示詞工程(PromptEngineering)自動(dòng)對(duì)文本內(nèi)容糾錯(cuò)。此外,還可用其對(duì)文章進(jìn)行潤(rùn)色處理,使文章在表述上更加清晰流暢。同時(shí),可以還可LLM進(jìn)行文本翻譯。改寫是指將文本轉(zhuǎn)換為具有不同風(fēng)格或結(jié)構(gòu)的新版本,同時(shí)保持原有信息的功能。語言模型能夠理解原文的意圖和語義,然后以新的方式重新表達(dá)相同的信息。應(yīng)用場(chǎng)景:在出版和媒體行業(yè),模型可以幫助編輯改寫文章,以適應(yīng)不同的讀者群體或出版標(biāo)準(zhǔn)。教育領(lǐng)域中,可以將復(fù)雜的學(xué)術(shù)材料改寫為更易理解的語言,使之適合更廣泛的受眾。對(duì)于多語言內(nèi)容制作者,語言模型可以將一種風(fēng)格或方言的文本轉(zhuǎn)換成另一種,以適應(yīng)不同地區(qū)的語言習(xí)慣。在編程開發(fā)中可以使用改寫功能將某種編程語言編寫的程序代碼改寫成另一種。我讓ChatGPT使用魯迅的風(fēng)格改寫前面的樣例中生成的關(guān)于氣候變化的文章。模型用了極短的時(shí)間將文章改寫成了文言文,效果非常驚艷。但我追加了對(duì)魯迅寫作風(fēng)格提示并要求ChatGPT改寫為白話文后,效果并不好。2.2.大模型的領(lǐng)域適配大型通用語言模型通過使用廣泛的數(shù)據(jù)源進(jìn)行訓(xùn)練,在許多通用任務(wù)上表現(xiàn)出色。然而,這些模型可能不足以處理特定行業(yè)或?qū)I(yè)領(lǐng)域(如醫(yī)學(xué)、法律或工程)中常用的專業(yè)術(shù)語和復(fù)雜概念。通過領(lǐng)域適配,模型可以減少對(duì)專業(yè)術(shù)語的誤解或錯(cuò)誤解釋,避免誤導(dǎo)和信息不準(zhǔn)確的問題,更準(zhǔn)確地理解和生成這些領(lǐng)域特有的語言,增強(qiáng)信息的相關(guān)性和準(zhǔn)確性,從而為用戶提供更相關(guān)和精確的回答。此外,針對(duì)特定領(lǐng)域的用戶,他們對(duì)信息的準(zhǔn)確性和深度有更高的要求,領(lǐng)域適配可以為他們提供更定制化、更符合其特定需求的服務(wù)。在某些領(lǐng)域,如醫(yī)療和金融,遵守行業(yè)規(guī)范和法律合規(guī)性尤為重要,領(lǐng)域適配在這方面起著關(guān)鍵作用。領(lǐng)域適配主要包括以下幾個(gè)過程:(1)數(shù)據(jù)收集和篩選:這是領(lǐng)域適配的第一步。收集與特定行業(yè)或?qū)I(yè)領(lǐng)域(如醫(yī)學(xué)、法律、金融等)相關(guān)的數(shù)據(jù)。這些數(shù)據(jù)可能包括專業(yè)文章、行業(yè)報(bào)告、技術(shù)文檔、專業(yè)論壇的討論等。重點(diǎn)是獲得涵蓋領(lǐng)域內(nèi)專業(yè)術(shù)語和特定語境的高質(zhì)量數(shù)據(jù)。(2)數(shù)據(jù)預(yù)處理和清洗:獲得數(shù)據(jù)后,需要對(duì)其進(jìn)行預(yù)處理和清洗,以確保數(shù)據(jù)的質(zhì)量。這可能包括去除無關(guān)信息、標(biāo)準(zhǔn)化術(shù)語、更正錯(cuò)誤等。這一步驟對(duì)于提高模型學(xué)習(xí)的效率和準(zhǔn)確性至關(guān)重要。(3)微調(diào)或遷移學(xué)習(xí):接下來,使用特定領(lǐng)域的數(shù)據(jù)對(duì)現(xiàn)有的大型語言模型進(jìn)行微調(diào)。這個(gè)過程涉及在特定領(lǐng)域數(shù)據(jù)上繼續(xù)訓(xùn)練模型,以便模型更好地理解和生成與該領(lǐng)域相關(guān)的語言和信息。(4)驗(yàn)證和評(píng)估:微調(diào)后,需要評(píng)估模型在領(lǐng)域特定任務(wù)上的性能。這可能包括使用專業(yè)的測(cè)試集來檢查模型對(duì)專業(yè)術(shù)語的理解、回答領(lǐng)域相關(guān)問題的準(zhǔn)確性等。根據(jù)評(píng)估結(jié)果,可能需要進(jìn)行進(jìn)一步的調(diào)整和優(yōu)化。(5)持續(xù)迭代和更新:領(lǐng)域知識(shí)和專業(yè)術(shù)語可能會(huì)隨時(shí)間發(fā)展和變化。因此,領(lǐng)域適配是一個(gè)持續(xù)的過程,需要定期更新模型,以包含最新的領(lǐng)域知識(shí)和數(shù)據(jù)。(6)合規(guī)性和倫理考量:在某些領(lǐng)域,尤其是醫(yī)療和法律,還需要考慮合規(guī)性和倫理問題,確保模型的輸出不違反行業(yè)規(guī)范和法律規(guī)定。通過上述領(lǐng)域適配的過程,大型通用語言模型能夠更有效地服務(wù)于特定行業(yè)和專業(yè)領(lǐng)域。這不僅提高了模型在處理專業(yè)術(shù)語和復(fù)雜概念時(shí)的準(zhǔn)確性和效率,還確保了信息的相關(guān)性和深度,滿足了特定用戶群體的高標(biāo)準(zhǔn)要求。同時(shí),考慮到合規(guī)性和倫理的重要性,尤其在敏感領(lǐng)域如醫(yī)療和法律,這種適配過程也保證了模型輸出的安全性和合法性。因此,領(lǐng)域適配不僅是提升模型性能的技術(shù)手段,也是確保其廣泛適用性和可靠性的關(guān)鍵步驟。2.3.多模態(tài)大模型ChatGPT于近期開放了其多模態(tài)接口,以GPT-4為代表的多模態(tài)大模型再次成為前沿?zé)狳c(diǎn)。多模態(tài)大模型不僅打破了僅限于單一感官輸入的束縛,還賦予了機(jī)器對(duì)世界的感知能力,一個(gè)更接近人類的多維視角。通過整合視覺、聽覺、文本等多種信息來源,多模態(tài)模型在理解復(fù)雜的環(huán)境和人類行為上展現(xiàn)出無與倫比的潛力。本節(jié)將探討常見的多模態(tài)任務(wù),以及多模態(tài)模型在各個(gè)行業(yè)中的應(yīng)用。隨著技術(shù)的不斷進(jìn)步,多模態(tài)模型不僅正在改變我們與機(jī)器交流的方式,更是在重塑我們對(duì)世界的理解和互動(dòng)??紤]到篇幅與理解難度,本文僅對(duì)多模態(tài)學(xué)習(xí)的原理做簡(jiǎn)要介紹。多模態(tài)學(xué)習(xí)(MultimodalMachineLearning,MML)是指利用來自多種不同數(shù)據(jù)源或類型的信息進(jìn)行學(xué)習(xí)的過程。在這種學(xué)習(xí)方法中,不同模態(tài)的數(shù)據(jù)被綜合考慮,以更全面地理解和分析問題。多模態(tài)學(xué)習(xí)的關(guān)鍵是探索和利用不同模態(tài)數(shù)據(jù)之間的關(guān)系,以提高預(yù)測(cè)準(zhǔn)確性、數(shù)據(jù)理解和決策質(zhì)量。論文《MultimodalMachineLearning:ASurveyandTaxonomy》列舉了多模態(tài)學(xué)習(xí)中的五個(gè)主要的研究方向:(1)表征(Representation):如何表示和總結(jié)多模態(tài)數(shù)據(jù),以利用不同模態(tài)的互補(bǔ)性和冗余性。由于多模態(tài)數(shù)據(jù)的異質(zhì)性,構(gòu)建這樣的表征是具有挑戰(zhàn)性的,主要分為兩類表征方法:聯(lián)合表征(JointRepresentations)和協(xié)同表征(CoordinatedRepresentation)。聯(lián)合表征將多種模態(tài)的表示融合映射到一個(gè)統(tǒng)一的向量空間中;協(xié)同表征則是將不同模態(tài)映射到不同的向量空間,但映射后的向量之間滿足一定的約束關(guān)系。(2)翻譯/映射(Translation/Mapping):如何將數(shù)據(jù)從一種模態(tài)轉(zhuǎn)換(映射)到另一種模態(tài),比如將文字描述“貓”轉(zhuǎn)化為圖像。這個(gè)過程經(jīng)常是開放的或主觀的,因?yàn)椴煌B(tài)之間的關(guān)系往往是多元的,“貓”的文本對(duì)應(yīng)的圖像有千萬個(gè)正確答案,自然界中不同品種的貓、動(dòng)畫中的二次元貓(甚至路由器的光貓)都能夠算作正確的轉(zhuǎn)換。(3)對(duì)齊(Alignment):對(duì)來自同一個(gè)實(shí)例的不同模態(tài)信息的子分支/元素尋找對(duì)應(yīng)關(guān)系,包括時(shí)間序列對(duì)齊、視覺詞匯對(duì)齊等。這需要測(cè)量不同模態(tài)之間的相似性并處理可能的長(zhǎng)期依賴性和模糊性。(4)融合(Fusion):將來自兩種或更多模態(tài)的信息結(jié)合起來進(jìn)行預(yù)測(cè)。不同模態(tài)提供的信息可能具有不同的預(yù)測(cè)力和噪聲拓?fù)?,并可能至少在一種模態(tài)中缺失數(shù)據(jù)。按照融合的層次,可以將多模態(tài)融合分為pixellevel,featurelevel和decisionlevel三類,分別對(duì)應(yīng)對(duì)原始數(shù)據(jù)進(jìn)行融合、對(duì)抽象的特征進(jìn)行融合和對(duì)決策結(jié)果進(jìn)行融合。(5)協(xié)同學(xué)習(xí)(Co-learning):在模態(tài)之間、它們的表示和預(yù)測(cè)模型之間轉(zhuǎn)移知識(shí)。協(xié)同學(xué)習(xí)探索了從一個(gè)數(shù)據(jù)資源豐富的模態(tài)中學(xué)到的知識(shí)如何幫助訓(xùn)練在另一個(gè)數(shù)據(jù)資源相對(duì)貧瘠的模態(tài)上的計(jì)算模型。多模態(tài)任務(wù)在許多現(xiàn)實(shí)領(lǐng)域中有廣泛的應(yīng)用場(chǎng)景,涵蓋了從健康醫(yī)療到教育、娛樂和安全等多個(gè)方面。以下是一些應(yīng)用的領(lǐng)域和具體場(chǎng)景:(1)醫(yī)療:a)醫(yī)學(xué)影像分析:結(jié)合醫(yī)學(xué)圖像(如MRI、CT掃描)和患者的電子健康記錄來提高診斷的準(zhǔn)確性和效率。b)患者監(jiān)測(cè):使用傳感器收集的數(shù)據(jù)(如心率、運(yùn)動(dòng)數(shù)據(jù))監(jiān)測(cè)健康狀況。(2)交通:a)自動(dòng)駕駛汽車:結(jié)合來自攝像頭、雷達(dá)和其他傳感器的數(shù)據(jù)來實(shí)現(xiàn)安全的車輛導(dǎo)航和決策。b)交通監(jiān)控:使用攝像頭和聲音傳感器來監(jiān)控和管理交通流量。(3)娛樂:a)增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR):結(jié)合視覺、聽覺和觸覺反饋,為用戶提供沉浸式的體驗(yàn)。b)電影和游戲制作:使用多模態(tài)數(shù)據(jù)來創(chuàng)造更逼真和互動(dòng)的視覺效果。(4)安全:a)監(jiān)控系統(tǒng):結(jié)合視頻監(jiān)控和音頻數(shù)據(jù)來提高安全監(jiān)控的效能。b)欺詐檢測(cè):分析交易記錄、用戶行為和通信內(nèi)容,以識(shí)別和防范欺詐活動(dòng)。(5)服務(wù):a)智能助手:結(jié)合語音、文本和圖像處理來提供更加全面和個(gè)性化的用戶體驗(yàn)。b)用戶分析:通過分析用戶的語音、文字和情感反應(yīng)來提供更有效的客戶支持。OpenAI在最新發(fā)布的技術(shù)報(bào)告《TheDawnofLMMs:PreliminaryExplorationswithGPT-4V(ision)》中提供了GPT-4V這個(gè)大型多模態(tài)模型的全面分析,涵蓋了其處理不同輸入模式的能力,與人類互動(dòng)的方法,以及在多種智力和情感測(cè)試中的表現(xiàn)。GPT-4V能夠處理單文本輸入、單一“圖像-文本”對(duì)輸入以及交錯(cuò)的圖像-文本輸入等多種模式的輸入。在性能方面,GPT-4V具有不俗的“視覺-語言”、時(shí)間和視頻理解、抽象視覺推理以及情緒識(shí)別能力。在應(yīng)用方面,報(bào)告列舉出了一系列GPT-4V的應(yīng)用場(chǎng)景,包括差異發(fā)現(xiàn)、工業(yè)、醫(yī)療、汽車保險(xiǎn)、定制字幕、圖像生成、GUI導(dǎo)航等等。GPT系列模型GPT-1/2/3/4僅接受文本輸入-文本輸出,在第四代已經(jīng)展現(xiàn)出了非常強(qiáng)大的文本理解和生成能力。到GPT-4V能夠接受“圖片-文字”混合輸入-文本輸出,也展現(xiàn)出了強(qiáng)大的圖像理解能力,后續(xù)“圖文交錯(cuò)”的輸出能力就成為了很自然的發(fā)展方向。以及,結(jié)合其他諸如視頻、音頻和其他傳感器數(shù)據(jù)模態(tài)的輸入/輸出,將繼續(xù)擴(kuò)展大語言模型的能力。向更遠(yuǎn)處展望,人類的感官除了視覺、聽覺,還包括嗅覺、觸覺、味覺等等。因此,人類能夠感知的模態(tài)除了文本、圖像、聲音,還包括氣味、觸感、味覺感受等。當(dāng)多模態(tài)大模型發(fā)展到能夠涵蓋人類能夠感知的所有模態(tài),從而模擬和理解人類的全面感知體驗(yàn)時(shí),我們可能就距離實(shí)現(xiàn)真正高等級(jí)的人工智能僅一步之遙。這種全方位的感知能力將極大地推動(dòng)人工智能在理解復(fù)雜世界、情感智能和更自然人機(jī)交互等方面的進(jìn)步。3.大語言模型在量化投資領(lǐng)域的應(yīng)用與前景在過去的幾十年里,量化投資作為金融領(lǐng)域的一大創(chuàng)新,不僅改變了市場(chǎng)的操作方式,也重新定義了投資決策過程。隨著人工智能和大數(shù)據(jù)技術(shù)的迅猛發(fā)展,尤其是大語言模型的出現(xiàn),這一領(lǐng)域是否能夠迎來新的變革?這些模型不僅能夠處理和分析傳統(tǒng)的數(shù)值數(shù)據(jù),還能深入挖掘新聞報(bào)道、社交媒體帖子、公司財(cái)報(bào)等文本信息中的寶貴情報(bào)。在這一章中,我們將探討大語言模型如何在量化投資中被用于數(shù)據(jù)整理和分析、市場(chǎng)情緒分析、風(fēng)險(xiǎn)預(yù)測(cè)、投資策略的生成和優(yōu)化,以及這一技術(shù)如何作為投資者的輔助帶來效率的提升。3.1.強(qiáng)大的信息提取與總結(jié)能力在當(dāng)今信息爆炸的時(shí)代,我們每天都要處理大量的數(shù)據(jù)和信息,其中包括文本文檔、表格、音頻和視頻文件。這些信息的管理和處理不僅耗時(shí),而且往往需要高度的集中注意力和組織能力。ChatGPT等大模型作為先進(jìn)的語言處理工具,不僅能夠理解和生成自然語言文本,還能夠?qū)Ω鞣N文件類型進(jìn)行分析和總結(jié)。無論是將長(zhǎng)篇的報(bào)告精煉成簡(jiǎn)明的摘要,還是從復(fù)雜的表格中提取關(guān)鍵數(shù)據(jù),甚至是從音視頻內(nèi)容中抓取重要信息,ChatGPT都能夠以其獨(dú)特的智能處理方式,大大減輕工作負(fù)擔(dān)。本節(jié)將介紹如何利用ChatGPT來高效地處理各種類型的文件,實(shí)現(xiàn)信息的快速提取和整理。3.1.1.文檔內(nèi)容讀取ChatGPT已經(jīng)于近日為Plus用戶開放了文件上傳功能,處理PDF等文本文檔的工作得到了極大的簡(jiǎn)化。過去想要使用ChatGPT讀取PDF文檔,需要用戶自己編程將PDF文件中的文字提取成text數(shù)據(jù),進(jìn)行分詞、根據(jù)LMM接口token上限分塊、調(diào)用詞嵌入進(jìn)行向量化等預(yù)處理后,將上下文(context)和問題(question)輸入LLM,才能得到答案,構(gòu)建過程相當(dāng)繁瑣。現(xiàn)在僅需在網(wǎng)頁版ChatGPT4問答輸入欄中上傳DPF附件,并附上提問即可,操作非常簡(jiǎn)便。3.1.2.音視頻內(nèi)容讀取ChatGPT4向用戶提供了上傳音視頻文件的功能,但也許是因?yàn)榻袢臻_放的新功能較多導(dǎo)致用戶流量增長(zhǎng)過大,迫于維護(hù)的壓力,OpenAI關(guān)閉了ChatGPT4的網(wǎng)絡(luò)接口。因此其無法通過谷歌語音識(shí)別服務(wù)接口進(jìn)行音視頻的語音識(shí)別,導(dǎo)致無法直接通過上傳音視頻文件進(jìn)行分析總結(jié)。通過ChatGPT的回答也可以得知,其對(duì)于音視頻文件的分析也是先通過語音識(shí)別將文件轉(zhuǎn)換為文本,再進(jìn)行文本信息的分析和處理的。這是因?yàn)楫?dāng)前版本的GPT-4V模型無法接受音頻模態(tài)的輸入。此外,通過提供視頻鏈接給ChatGPT讓其對(duì)視頻內(nèi)容分析也因?yàn)榫W(wǎng)絡(luò)接口的關(guān)閉暫時(shí)無法進(jìn)行,這個(gè)任務(wù)在GPT-4V模型開放之初是能夠完成的。對(duì)于音視頻處理,在ChatGPT開放多模態(tài)功能之前,也需要編寫代碼并借助langchain等LLM應(yīng)用開發(fā)框架,通過語音識(shí)別或字幕生成等處理后,再將文本投入LLM模型中完成任務(wù)。如今這個(gè)過程被OpenAI并入了ChatGPT功能之中。3.1.3.表格信息整理對(duì)于表格類型的數(shù)據(jù)分析,只要提問準(zhǔn)確,ChatGPT的分析速度和準(zhǔn)確程度都非常高。對(duì)于表格中不存在的數(shù)據(jù),ChatGPT也會(huì)給出“無法回答”的響應(yīng)。如果我補(bǔ)充條件“公司名稱所在的地點(diǎn)一般就是公司的注冊(cè)地”,則模型會(huì)返回將表格中名稱帶有“深圳”的公司名單。3.2.強(qiáng)大的文本分析與分類能力在金融領(lǐng)域,存在大量的文本類金融數(shù)據(jù),其中包含著海量信息。投資研究者需要對(duì)這些信息進(jìn)行檢索、篩選、分析,最終得出投資建議或決策。對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論