版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
浙江省普通本科高?!笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ:81505050第3章大模型的架構(gòu)大語言模型(LLM)正在與我們的生活形成愈發(fā)緊密的聯(lián)系。大模型的底層邏輯包括深度學習架構(gòu)、訓練機制與應(yīng)用場景等。近年來,大模型取得顯著進展,通過擴大數(shù)據(jù)大小和模型大小,這些大模型提高了驚人的涌現(xiàn)能力,通常包括上下文學習(ICL)、指令微調(diào)和思維鏈(CoT)。盡管大模型在大多數(shù)自然語言處理任務(wù)中表現(xiàn)出了令人驚訝的零樣本/少樣本(Zero/Few-Shot)推理性能,但它們天生對視覺“視而不見”,因為它們只能理解離散文本。第3章大模型的架構(gòu)另一方面,GPT-4因其展示的驚人例子而引發(fā)了對多模態(tài)大模型(MLLM)的研究熱潮,但GPT-4并沒有打開多模態(tài)接口。盡管如此,研究界還是做出了許多努力來開發(fā)有能力的開源多模態(tài)大模型,展示了一些令人驚訝的實用能力,例如基于圖像編寫網(wǎng)站代碼,理解模因(指能通過模仿而被復(fù)制的信息或思想,小到一條回答,一段流行歌曲旋律,一首古詩,一個笑話,一幅圖片,大到一個習俗,一個節(jié)日,一個思想,一個主義)的深層含義,以及數(shù)學推理。第3章大模型的架構(gòu)01大模型生成原理02多模態(tài)語言模型03應(yīng)用技術(shù)架構(gòu)04OpenAI的Sora大模型目錄/CONTENTS05谷歌新款大模型頻發(fā)PART01大模型生成原理簡單來說,GPT大模型是一種基于深度學習的自然語言處理模型,它生成文本(文生文)結(jié)果的原理,就是通過學習語言的規(guī)律,然后根據(jù)已有的語境(上文),預(yù)測下一個單詞(頻率),從而生成連貫的文本。這一點,和人類說話或?qū)懳恼率穷愃频摹D3-1通過預(yù)測生成文本3.1大模型生成原理借助于群體智能,GPT模型的學習能力和生成能力已經(jīng)遠超我們?nèi)祟悺1热?,人類對話中,“我”后面通常會跟“是”,“你”后面通常會跟“好”等等,這就是一種語言規(guī)律。GPT模型通過類似方式來學習語言規(guī)律。在模型訓練過程中,GPT模型會閱讀大量,甚至是數(shù)以億計的文本數(shù)據(jù),從中學習到這些文本中非常復(fù)雜的語言規(guī)律。這就是為什么GPT模型可以生成非常自然、連貫文本的原理。3.1大模型生成原理GPT模型的內(nèi)部結(jié)構(gòu)由多層神經(jīng)網(wǎng)絡(luò)組成,每一層神經(jīng)網(wǎng)絡(luò)都可以抽取文本的某種特征?!さ谝粚由窠?jīng)網(wǎng)絡(luò)可能會抽取出單詞的拼寫規(guī)律;·第二層神經(jīng)網(wǎng)絡(luò)可能會抽取出詞性的規(guī)律;·第三層神經(jīng)網(wǎng)絡(luò)可能會抽取出句子的語法規(guī)律等等。通過層層抽取,GPT模型可以學習到深層次的語言規(guī)律。實際上,其工作原理還涉及到很多復(fù)雜的數(shù)學和計算機科學知識。3.1大模型生成原理GPT-3模型展現(xiàn)了一些大模型才具備的突現(xiàn)能力(就是模型規(guī)模必須得增大到一定程度才會顯現(xiàn)的能力,比如至少百億級),其中一項能力就是上下文學習。該能力簡單來說就是,對于一個預(yù)訓練好的大模型,遷移到新任務(wù)上的時候,并不需要重新訓練,而只需要給模型提供任務(wù)描述(這個任務(wù)描述是可選項),輸入幾個示例(輸入-輸出對),最后加上要模型回答的查詢,模型就能為新輸入生成正確輸出查詢對應(yīng)的答案,而不需要對模型做微調(diào)。這也引發(fā)了研究人員對該能力產(chǎn)生原因的思考和探索。3.1.1上下文學習GPT-n系列的模型都屬于自回歸類的語言模型,就是根據(jù)當前輸入預(yù)測下一個詞,然后將預(yù)測結(jié)果和輸入拼接再當作模型的輸入預(yù)測下一個詞,這樣循環(huán)往復(fù)。而自回歸模型的訓練目標也很簡單,就是從超大規(guī)模語料庫中采樣訓練樣本,模型根據(jù)輸入輸出一個概率向量(包含所有詞的預(yù)測概率,就GPT-3模型而言,維度約1千多萬),而因為文本數(shù)據(jù)自帶標注,所以我們知道真實的下一個詞。然后,研究人員發(fā)現(xiàn),預(yù)訓練好的GPT-3模型擁有一項神奇的能力,后來就被稱為上下文學習。3.1.1上下文學習比如,現(xiàn)在想用GPT-3來做個翻譯任務(wù),翻譯英文為法文。輸入的格式如圖3-2所示。圖3-2GPT-3的翻譯任務(wù)格式3.1.1上下文學習首先第一行是對任務(wù)描述,告訴模型要做翻譯,接下來三行是示例,英文單詞和對應(yīng)的法文單詞對,最后一行是待翻譯的英文單詞。將以上內(nèi)容整體作為GPT-3的輸入,讓模型去補全輸出就能得到cheese對應(yīng)的法文單詞。上下文學習非常靈活,除了翻譯任務(wù),還可以做語法修飾甚至寫代碼。而神奇的地方在于,GPT-3的訓練過程中并沒有顯式地提供類似測試階段任務(wù)描述加示例這樣的訓練數(shù)據(jù)。3.1.1上下文學習當然,GPT-3的訓練數(shù)據(jù)量非常巨大(比如包含百度、維基、書本期刊上的討論等),或許里面已經(jīng)包含了各種任務(wù)類似結(jié)構(gòu)的數(shù)據(jù)。GPT-3模型容量足夠大,記下了所有訓練數(shù)據(jù)。對于上下文學習能力的成因,目前還是一個開放性的問題。為什么只有大規(guī)模的語言模型才會具備這樣的能力?或許只有模型參數(shù)量大還不夠,還必須要訓練數(shù)據(jù)量也足夠大,模型才能顯現(xiàn)出該能力?3.1.1上下文學習指令微調(diào)(又稱指令跟隨)是一種通過在由(指令,輸出)對組成的數(shù)據(jù)集結(jié)構(gòu)上進一步訓練大模型的過程,以增強大模型的能力和可控性。其中,指令代表模型的人類指令,輸出代表遵循指令的期望輸出。這種結(jié)構(gòu)使得指令微調(diào)專注于讓模型理解和遵循人類指令。這個過程有助于彌合大模型的下一個詞預(yù)測目標與用戶讓大模型遵循人類指令的目標之間的差距。指令微調(diào)可以被視為有監(jiān)督微調(diào)的一種特殊形式。但是,它們的目標依然有差別。有監(jiān)督微調(diào)是一種使用標記數(shù)據(jù)對預(yù)訓練模型進行微調(diào)的過程,以便模型能夠更好地執(zhí)行特定任務(wù)。3.1.2指令微調(diào)舉個例子:公司門禁用了人臉識別,而你只提供一張照片,門禁系統(tǒng)就能從各個角度認出你,這就是單一樣本。可以把單一樣本理解為用1條數(shù)據(jù)微調(diào)模型。在人臉識別場景里,單一樣本很常見。在自然語言處理場景中,用百度百科、維基百科上的數(shù)據(jù)、新聞等訓練一個GPT模型,直接拿來做對話任務(wù),這個就是零樣本(完全的無監(jiān)督學習)。然后,發(fā)現(xiàn)里面胡說八道有點多,于是找一些人標注少量優(yōu)質(zhì)數(shù)據(jù)喂進去,這就是少樣本。ChatGPT的發(fā)展史就是從零樣本到少樣本。3.1.3零樣本/少樣本GPT-3之后的問題是少樣本時,到底應(yīng)該標注哪些數(shù)據(jù)?將它們跟強化學習結(jié)合起來,就是人類反饋強化學習,這是ChatGPT的核心技術(shù)。這套方法本質(zhì)目的是:如何把機器的知識與人的知識對齊。然后開創(chuàng)了一個新的方向,叫“對準”。3.1.3零樣本/少樣本“模型”是現(xiàn)實化的一種抽象,抽象成數(shù)學公式。即使深度學習的出發(fā)點是更深層次的神經(jīng)網(wǎng)絡(luò),但細分起來也會有非常多的不同模型(也就是不同的抽象問題的方式),對應(yīng)不同的數(shù)學公式,比如常見的CNN(卷積神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò))等。大模型,就是模型中比較“大”的那一類,大的具體含義也就是數(shù)學公式更復(fù)雜,參數(shù)更多。3.1.4深度學習架構(gòu)2021年8月份,李飛飛等學者聯(lián)名發(fā)表一份200多頁的研究報告《論基礎(chǔ)模型的機遇與風險》,詳細描述了當前大規(guī)模預(yù)訓練模型面臨的機遇和挑戰(zhàn)。在文章中,大模型被統(tǒng)一命名為“基礎(chǔ)模型”,論文肯定了基礎(chǔ)模型對智能體基本認知能力的推動作用。2017年Transformer結(jié)構(gòu)的提出,使得深度學習模型參數(shù)突破了1億,BERT網(wǎng)絡(luò)模型超過3億規(guī)模,GPT-3模型超過百億,大模型蓬勃發(fā)展,已經(jīng)出現(xiàn)多個參數(shù)超過千億的大模型。參數(shù)量多,學習的數(shù)據(jù)量更多,模型的泛化能力更強。泛化能力通俗來講就是一專多能,可以完成多個不同的任務(wù)。3.1.4深度學習架構(gòu)(1)詞嵌入層。大模型使用詞嵌入技術(shù)將文本中的每個詞匯轉(zhuǎn)化為高維向量,確保模型可以處理連續(xù)的符號序列。這些向量不僅編碼了詞匯本身的含義,還考慮了語境下的潛在關(guān)聯(lián)。(2)位置編碼。為了解決序列信息中詞語順序的問題,Transformer引入了位置編碼機制。這種機制允許模型理解并記住單詞之間的相對或絕對位置關(guān)系,即使在轉(zhuǎn)換成固定長度向量后也能保留上下文信息。3.1.4深度學習架構(gòu)(3)自注意力機制。自注意力是Transformer的核心部件,通過計算輸入序列中每個位置的單詞與其他所有位置單詞的相關(guān)性,從而實現(xiàn)對整個句子的全局建模。多頭自注意力則擴展了這一機制,使其能夠從不同視角捕獲并整合信息。(4)前饋神經(jīng)網(wǎng)絡(luò)(FFN)。在自注意力層之后,模型通常會包含一個或多個全連接的前饋神經(jīng)網(wǎng)絡(luò)層,用于進一步提煉和組合特征,增強模型對復(fù)雜語言結(jié)構(gòu)的理解和表達能力。3.1.4深度學習架構(gòu)大量實驗證明,在高質(zhì)量的訓練語料進行指令微調(diào)的前提下,超過百億參數(shù)量的模型才具備一定的涌現(xiàn)能力,尤其是在一些復(fù)雜的推理任務(wù)上。也就是說,如果為通過大模型技術(shù)來提升業(yè)務(wù)指標,不得不要求我們?nèi)ビ柧氁粋€百億規(guī)模的模型。然而,一般情況下人們并不具備如此大規(guī)模的計算資源。因此,在有限的算力條件下訓練或推理一個百億量級的大模型是不太現(xiàn)實的,無疑要在訓練和推理兩個階段采用一些優(yōu)化策略來解決此類問題,以滿足在有限的計算資源的條件下訓練自己的大模型。3.1.5訓練策略及優(yōu)化技術(shù)(1)自我監(jiān)督學習。利用大規(guī)模無標簽文本數(shù)據(jù)進行預(yù)訓練時,主要采用如掩碼語言模型(MLM)或自回歸模型(GPT-style)等策略。MLM通過對部分詞匯進行遮蔽并讓模型預(yù)測被遮蔽的內(nèi)容來學習語言表征;而自回歸模型則是基于歷史信息預(yù)測下一個詞的概率。(2)微調(diào)階段。預(yù)訓練完成后,模型在特定任務(wù)上進行微調(diào)以適應(yīng)具體需求。它涉及文本分類、問答系統(tǒng)、機器翻譯等各種下游任務(wù),通過梯度反向傳播調(diào)整模型參數(shù),提升任務(wù)性能。3.1.5訓練策略及優(yōu)化技術(shù)(3)先進的訓練方法。進一步發(fā)展還包括對比學習,利用正負樣本對強化模型識別和區(qū)分關(guān)鍵信息的能力;以及增強學習,使模型通過與環(huán)境交互,逐步優(yōu)化其輸出以最大化預(yù)期獎勵。3.1.5訓練策略及優(yōu)化技術(shù)PART02多模態(tài)語言模型所謂多模態(tài),指的是多種模態(tài)的信息,包括文本、圖像、視頻、音頻等。目前在大多數(shù)工作中主要是處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式,這就涉及到圖像和文本領(lǐng)域的內(nèi)容。顧名思義,多模態(tài)研究的是這些不同類型的數(shù)據(jù)的融合問題。3.2多模態(tài)語言模型一般大模型是一種生成文字的模型,它和文生圖比如DALL·E都是多模態(tài)語言模型的分支。多模態(tài)大語言模型(MLLM)是近年來興起的一個新的研究熱點,它利用強大的大模型(LLM)作為大腦來執(zhí)行多模態(tài)任務(wù)。MLLM令人驚訝的新興能力,如基于圖像寫故事和數(shù)學推理,在傳統(tǒng)方法中是罕見的,這表明了一條通往人工通用智能的潛在道路。3.2多模態(tài)語言模型與此同時,大型視覺基礎(chǔ)模型在感知方面進展迅速,而傳統(tǒng)的與文本的結(jié)合更注重模態(tài)對齊和任務(wù)統(tǒng)一,在推理方面發(fā)展緩慢。鑒于這種互補性,單模態(tài)大模型和視覺模型同時朝著彼此運行,最終帶來了MLLM新領(lǐng)域。形式上,MLLM指的是基于大模型的模型,該模型能夠接收多模態(tài)信息并對其進行推理。從發(fā)展人工通用智能的角度來看,MLLM會比大模型更進一步。3.2多模態(tài)語言模型(1)MLLM更符合人類感知世界的方式。人類自然地接受多感官輸入,這些輸入往往是互補和合作的。因此,多模態(tài)信息有望使MLLM更加智能。(2)MLLM提供了一個更用戶友好的界面。得益于多模態(tài)輸入的支持,用戶可以以更靈活的方式與智能助手進行交互和交流。(3)MLLM是一個更全面的任務(wù)解決者。雖然大模型通??梢詧?zhí)行自然語言處理任務(wù),但MLLM通??梢灾С指蠓秶娜蝿?wù)。3.2多模態(tài)語言模型具有代表性的MLLM可以分為4種主要類型:(1)多模態(tài)指令調(diào)整(MIT)。(2)多模態(tài)上下文學習(M-ICL)。(3)多模態(tài)思維鏈(M-CoT)。(4)大模型輔助視覺推理(LAVR)。是以大模型為核心的多模態(tài)系統(tǒng)。前三個構(gòu)成了MLLM的基本原理,三種技術(shù)相對獨立,并且可以組合使用。3.2多模態(tài)語言模型指令是指對任務(wù)的描述。指令微調(diào)是一種涉及在指令格式數(shù)據(jù)集集合上微調(diào)預(yù)訓練大模型的技術(shù)。通過這種方式進行調(diào)整,大模型可以通過遵循新的指令來泛化到看不到的任務(wù),從而提高零樣本性能。這個簡單而有效的想法引發(fā)了自然語言處理領(lǐng)域后續(xù)工作的成功,如ChatGPT。3.2.1多模態(tài)指令微調(diào)監(jiān)督微調(diào)方法通常需要許多特定任務(wù)的數(shù)據(jù)來訓練特定任務(wù)的模型。提示方法減少了對大規(guī)模數(shù)據(jù)的依賴,并且可以通過提示來完成專門的任務(wù)。在這種情況下,少樣本性能得到了改進,但零樣本性能仍然相當平均。不同的是,指令微調(diào)學習泛化到看不見的任務(wù),而不局限于適應(yīng)特定的任務(wù),指令調(diào)整與多任務(wù)提示高度相關(guān)。許多研究工作探索了將大模型中的指令調(diào)整的成功擴展到多模態(tài)。從單模態(tài)擴展到多模態(tài),數(shù)據(jù)和模型都需要進行相應(yīng)的調(diào)整。3.2.1多模態(tài)指令微調(diào)研究人員通常通過調(diào)整現(xiàn)有的基準數(shù)據(jù)集或自學習來獲取數(shù)據(jù)集,一種常見的方法是將外來模態(tài)的信息注入大模型,并將其視為強有力的推理機。相關(guān)工作要么直接將外來嵌入與大模型對齊,要么求助于專家模型將外來模態(tài)翻譯成大模型可以吸收的自然語言。通過這種方式,這些工作通過多模態(tài)指令調(diào)整將大模型轉(zhuǎn)換為多模態(tài)通用任務(wù)求解器。3.2.1多模態(tài)指令微調(diào)多模態(tài)上下文學習是大模型重要的涌現(xiàn)能力之一。上下文學習有兩個特點:(1)與傳統(tǒng)的從豐富的數(shù)據(jù)中學習內(nèi)隱模態(tài)的監(jiān)督學習范式不同,上下文學習的關(guān)鍵是從類比中學習。具體而言,在上下文學習設(shè)置中,大模型從幾個例子和可選指令中學習,并推斷出新的問題,從而以少量的方式解決復(fù)雜和看不見的任務(wù)。3.2.2多模態(tài)上下文學習(2)上下文學習通常以無訓練的方式實現(xiàn),因此可以在推理階段靈活地集成到不同的框架中,指令調(diào)整技術(shù)可以增強上下文學習的能力。在此背景下,學習擴展到更多模態(tài),在推理時可以通過向原始樣本添加一個演示集,即一組上下文中的樣本來實現(xiàn)多模態(tài)上下文學習。3.2.2多模態(tài)上下文學習多模態(tài)上下文學習主要用于兩種場景:(1)解決各種視覺推理任務(wù)。通常包括從幾個特定任務(wù)的例子中學習,并概括為一個新的但相似的問題。根據(jù)說明和演示中提供的信息,大模型可以了解任務(wù)在做什么以及輸出模板是什么,并最終生成預(yù)期的答案。相比之下,工具使用的示例通常是純文本的,而且更具細粒度。它們通常包括一系列步驟,這些步驟可以按順序執(zhí)行以完成任務(wù)。(2)教大模型使用外部工具。這種情況與思維鏈(CoT)密切相關(guān)。3.2.2多模態(tài)上下文學習思維鏈(CoT)是“一系列中間推理步驟”,已被證明在復(fù)雜推理任務(wù)中是有效的。CoT的主要思想是促使大模型不僅輸出最終答案,而且輸出導(dǎo)致答案的推理過程,類似于人類的認知過程。受自然語言處理成功的啟發(fā),已經(jīng)提出了多項工作來將單模態(tài)CoT擴展到多模態(tài)CoT(M-CoT)。(1)模態(tài)橋接。為了將自然語言處理轉(zhuǎn)移到多模態(tài),模態(tài)橋接是第一個需要解決的問題。大致有兩種方法可以實現(xiàn)這一點:通過融合特征或通過將視覺輸入轉(zhuǎn)換為文本描述。3.2.3多模態(tài)思維鏈(2)學習范式。獲得M-CoT能力的方法大致有三種,即通過微調(diào)和無訓練的少樣本或者無樣本學習。三種方式的樣本量要求按降序排列。微調(diào)方法通常涉及為M-CoT學習管理特定的數(shù)據(jù)集。例如,ScienceQA構(gòu)建了一個包含講座和解釋的科學問答數(shù)據(jù)集,該數(shù)據(jù)集可以作為學習CoT推理的來源,并對提出的數(shù)據(jù)集進行微調(diào)。多模態(tài)CoT也使用ScienceQA基準,但以兩步方式生成輸出,即基本原理(推理步驟鏈)和基于基本原理的最終答案。CoT通過快速調(diào)整和特定步驟視覺偏見的組合來學習隱含的推理鏈。3.2.3多模態(tài)思維鏈與微調(diào)相比,少樣本/零樣本學習的計算效率更高。它們之間的主要區(qū)別在于,少樣本學習通常需要手工制作一些上下文中的例子,這樣模型就可以更容易地一步一步地學習推理。相比之下,零樣本學習不需要任何具體學習示例。它通過提示“讓作者逐幀思考”或“這兩個關(guān)鍵幀之間發(fā)生了什么”等設(shè)計指令,模型學會在沒有明確指導(dǎo)的情況下利用嵌入的知識和推理能力。類似地,一些工作提示模型描述任務(wù)和工具使用情況,將復(fù)雜任務(wù)分解為子任務(wù)。3.2.3多模態(tài)思維鏈受工具增強大模型成功的啟發(fā),一些研究探索了調(diào)用外部工具或視覺基礎(chǔ)模型進行視覺推理任務(wù)的可能性,將大模型作為具有不同角色的助手,構(gòu)建特定任務(wù)或通用的視覺推理系統(tǒng)。與傳統(tǒng)的視覺推理模型相比,這些工作表現(xiàn)出幾個良好的特點:(1)較強的泛化能力。這些系統(tǒng)配備了從大規(guī)模預(yù)訓練中學習到的豐富的開放世界知識,可以很容易地推廣到具有顯著Zero/FewShot性能的看不見的物體或概念。3.2.4大模型輔助視覺推理(2)突發(fā)能力。在強大推理能力和豐富大模型知識的幫助下,這些系統(tǒng)能夠執(zhí)行復(fù)雜的任務(wù)。例如,給定一張圖片,MM-REAT可以解釋表面下的含義,比如解釋為什么一個模因很有趣。(3)更好的交互性和控制力。傳統(tǒng)模型控制機制有限,并且通常需要昂貴的策劃數(shù)據(jù)集。相比之下,基于大模型的系統(tǒng)能夠在用戶友好的界面中進行精細控制(例如點擊)。大模型輔助的視覺推理系統(tǒng)可分為無訓練和微調(diào)兩種訓練范式類型。3.2.4大模型輔助視覺推理PART03應(yīng)用技術(shù)架構(gòu)大模型的厲害之處,不僅在于它很像人類的學習語言,更大的作用在于它未來會改變我們的生活和職場。現(xiàn)有的大模型的整體應(yīng)用架構(gòu),從上往下,從簡單到復(fù)雜,依次有四種。3.3應(yīng)用技術(shù)架構(gòu)指令工程聽著好像很遙遠,其實就是通過下面這個輸入框觸發(fā)的(見圖3-3)??瓷先ズ唵危@個很考驗一個人寫提示(指令)的“功力”。圖3-3指令界面3.3.1指令工程提示的作用就是通過引導(dǎo)模型生成特定類型的文本。一個好的提示可以引導(dǎo)模型以期望的方式生成文本。例如,如果想讓模型寫一篇關(guān)于全球變暖的文章,我們可以給模型一個提示,如“全球變暖是一個嚴重的問題,因為…”,模型會根據(jù)這個提示生成一篇文章。這種方法的優(yōu)點是簡單直觀,但缺點是可能需要大量的嘗試才能找到一個好的提示。3.3.1指令工程函數(shù)調(diào)用是一種更深入的應(yīng)用架構(gòu),它通過調(diào)用模型的內(nèi)部函數(shù),直接獲取模型的某些特性。例如,可以調(diào)用模型的詞向量函數(shù),獲取單詞的詞向量。這種方法的優(yōu)點是可以直接獲取模型的內(nèi)部信息,缺點是需要深入理解模型的內(nèi)部結(jié)構(gòu)。3.3.2函數(shù)調(diào)用檢索增強生成(RAG)是一種結(jié)合檢索和生成的應(yīng)用架構(gòu)。在這種方法中,模型首先會檢索相關(guān)的文本,然后用這些文本作為輸入,讓模型生成答案。例如,如果我們想讓模型回答一個關(guān)于全球變暖的問題,模型可以先檢索到一些關(guān)于全球變暖的文章,然后根據(jù)這些文章生成答案。這種方法的優(yōu)點是可以利用大量的外部信息,提高模型的生成質(zhì)量。但缺點是需要大量的計算資源,因為需要對大量的文本進行檢索。3.3.3檢索增強生成微調(diào)是一種在特定任務(wù)上進一步訓練模型的應(yīng)用架構(gòu)。在這種方法中,模型首先會在大量的文本上進行預(yù)訓練,學習語言的基本規(guī)律。然后,模型會在特定任務(wù)的數(shù)據(jù)上進行微調(diào),學習任務(wù)的特定規(guī)律。例如,我們可以在情感分析任務(wù)上微調(diào)模型,讓模型更好地理解情感。這種方法的優(yōu)點是可以提高模型在特定任務(wù)上的表現(xiàn),缺點是需要大量的標注數(shù)據(jù)。3.3.4微調(diào)PART04OpenAI的Sora大模型2024年2月16日,OpenAI發(fā)布Sora視頻生成模型技術(shù)(見圖3-4),報告揭示了其背后的強大訓練思路和詳細的技術(shù)特性。圖3-4文生視頻模型Sora的作品3.4OpenAI的Sora大模型DALL·E3(見圖3-5)是OpenAI在2023年9月發(fā)布的一個文生圖模型。相對于同類產(chǎn)品的Midjourney以及StableDiffusion,DALL·E3最大的便利之處在于,用戶不需要掌握提示的寫法了,直接自然語言描述即可,甚至還可以直接說出你的想法,DALL·E3會根據(jù)你的想法自動生成提示詞,然后去產(chǎn)生圖片。這對于剛剛?cè)腴T人工智能繪畫的人來說,可以說非常友好。圖3-5DALL·E3文生圖模型3.4OpenAI的Sora大模型Sora模型不僅展現(xiàn)了三維空間的連貫性、模擬數(shù)字世界的能力、長期連續(xù)性和物體持久性,還能與世界互動,如同真實存在。其訓練過程獲得了大模型的靈感,采用擴散型變換器模型,通過將視頻轉(zhuǎn)換為時空區(qū)塊的方式,實現(xiàn)了在壓縮的潛在空間上的訓練和視頻生成。這種獨特的訓練方法使得Sora能夠創(chuàng)造出質(zhì)量顯著提升的視頻內(nèi)容,無需對素材進行裁切,直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。Sora的推出,無疑為視頻生成領(lǐng)域帶來了革命性的進步,其技術(shù)細節(jié)值得每一位從業(yè)者細致研究。Sora的技術(shù)報告里面有OpenAI的訓練思路以及Sora詳細的技術(shù)特性,簡單來說,Sora的訓練量足夠大也產(chǎn)生了類似涌現(xiàn)的能力。3.4.1Sora技術(shù)報告分析Sora的主要技術(shù)特點如下。(1)三維空間的連貫性:Sora可以生成帶有動態(tài)相機運動的視頻。隨著相機移動和旋轉(zhuǎn),人物和場景元素在三維空間中保持連貫的運動。(2)模擬數(shù)字世界:Sora能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft(游戲網(wǎng)站)中的玩家,并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力。3.4.2Sora主要技術(shù)特點(3)長期連續(xù)性和物體持久性:對視頻生成系統(tǒng)來說,Sora能夠有效地模擬短期和長期依賴關(guān)系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。(4)與世界互動:Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續(xù)的新筆觸,或者一個人吃漢堡時留下咬痕。3.4.2Sora主要技術(shù)特點Sora的訓練受到了大模型的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓練,從而獲得了廣泛的能力。其模型訓練過程主要包括如下。(1)Sora實際上是一種擴散型變換器模型,它首先將視頻壓縮到一個低維潛在空間中,然后將這種表現(xiàn)形式分解成時空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。3.4.3Sora的模型訓練過程(2)訓練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并在此空間中生成視頻。還開發(fā)了一個對應(yīng)的解碼器模型,它能將生成的潛在表示映射回到像素空間。3.4.3Sora的模型訓練過程(3)對于給定的壓縮輸入視頻,提取一系列時空區(qū)塊,它們在變換器模型中充當詞元。這種方案同樣適用于圖像,因為圖像本質(zhì)上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓練。在推理過程中,可以通過在適當大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的大小。(4)隨著Sora訓練計算量的增加,樣本質(zhì)量有了顯著提升。Sora訓練時沒有對素材進行裁切,使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。3.4.3Sora的模型訓練過程(5)針對視頻的原生縱橫比進行訓練,可以提高構(gòu)圖和取景的質(zhì)量。訓練文本到視頻的生成系統(tǒng)需要大量配有文本提示的視頻。應(yīng)用了在DALL·E3中引入的重新字幕技術(shù)到視頻上。(6)與DALL·E3相似,也利用了GPT技術(shù),將用戶的簡短提示轉(zhuǎn)換成更詳細的提示,然后發(fā)送給視頻模型。3.4.3Sora的模型訓練過程Sora展現(xiàn)的三維空間連貫性和長期物體持久性,提升了視頻內(nèi)容的真實感。通過模擬數(shù)字世界和與世界互動,Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。Sora的獨特訓練方法及其對不同縱橫比的原生支持,標志著視頻生成技術(shù)的一個新時代。3.4.3Sora的模型訓練過程PART05谷歌新款大模型頻發(fā)科技巨頭谷歌的Gemini大模型的發(fā)布時間早于OpenAI的Sora大模型。2023年12月6日,谷歌宣布推出其認為規(guī)模最大、功能最強大的人工智能模型Gemini1.0,包括三種不同的套件:GeminiUltra,GeminiPro和GeminiNano,能夠處理視頻、音頻和文本等不同內(nèi)容形式的信息。Gemini1.0Ultra發(fā)布才沒多久,2024年2月15日深夜谷歌又放大招,宣布了谷歌新一代多模態(tài)大模型——Gemini1.5系列的誕生。3.5谷歌的新款大模型頻發(fā)Gemini1.0大模型的每個版本具有不同的信息處理能力,功能最強大的GeminiUltra版本是為在數(shù)據(jù)中心運行設(shè)計的,最弱的GeminiNano版本在移動設(shè)備上高效運行。開發(fā)者和企業(yè)客戶可以通過谷歌AIStudio或谷歌云VertexAI中的GeminiAPI訪問GeminiPro。安卓開發(fā)者也可以使用GeminiNano進行軟件開發(fā)。谷歌表示,對比之前的技術(shù),人工智能模型Gemini能夠進行更復(fù)雜的推理,理解更加細微的信息。它通過閱讀、過濾和理解信息,可以從數(shù)十萬份文件中提取要點,將有助于在從科學到金融的許多領(lǐng)域?qū)崿F(xiàn)新的突破。3.5.1Gemini1.0大模型谷歌首席執(zhí)行官桑達爾·皮查伊在一篇博文中寫道:“這個新模型代表了我們作為一家科技公司所做的最大的科學和工程努力之一,它也是一個多模態(tài)基礎(chǔ)模型,可以概括和理解不同類型的信息,包括文本、代碼、音頻、圖像和視頻?!弊設(shè)penAI一年前推出ChatGPT以來,谷歌一直在努力開發(fā)能夠與這家公司相抗衡的人工智能軟件。谷歌聲稱,已經(jīng)在其人工智能助手Bard上添加了部分Gemini模型的技術(shù),并表示計劃將先進的Gemini模型完全融入到Bard中。3.5.1Gemini1.0大模型谷歌大腦負責產(chǎn)品的副總裁伊萊·柯林斯聲稱,Gemini是谷歌幫助創(chuàng)造的最強大的人工智能模型,但與該公司之前的大模型相比,它為用戶提供的服務(wù)“明顯”更加便宜??铝炙寡a充說:“因此,Gemini不僅功能更強,效率也高得多。最新的模型仍然需要大量的計算能力來訓練,谷歌正在快速推進這一過程。”3.5.1Gemini1.0大模型谷歌Gemini系列大模型中,Gemini1.5Pro最高可支持10,000K詞元超長上下文,是谷歌最強的MoE(MixtureofExperts,混合專家)大模型。在百萬級詞元上下文的加持下,可以更輕易地與數(shù)十萬字的超長文檔、擁有數(shù)百個文件的數(shù)十萬行代碼庫、一部完整的電影等等進行交互。可以毫不夸張地說,大語言模型領(lǐng)域從此將進入一個全新的時代——1,000,000詞元超長上下文。Gemini1.5的誕生,意味著性能的階段飛躍,標志著谷歌在研究和工程創(chuàng)新上,又邁出了登月般的一步。3.5.2Gemini1.5多模態(tài)大模型在上下文窗口方面,此前的SOTA模型(state-of-the-art,用于描述機器學習中取得某個任務(wù)上當前最優(yōu)效果的模型)已經(jīng)“卷”到了200K詞元(20萬)。如今,谷歌成功將這個數(shù)字大幅提升——能夠處理高達100萬詞元(極限為1000萬詞元),創(chuàng)下了最長上下文窗口的紀錄。所謂大海撈針測試,是指通過將關(guān)鍵信息隨機插入一段長文本的不同位置,形成大模型的提示,通過測試大模型是否能從長文本中提取出關(guān)鍵信息,從而測試大模型的長文本信息提取能力的一種方法,可反映大模型長文本理解的基本能力。3.5.2Gemini1.5多模態(tài)大模型來看看Gemini1.5Pro在多模態(tài)大海撈針測試中的成績。(1)文本處理,Gemini1.5Pro在處理高達530,000詞元的文本時,能夠?qū)崿F(xiàn)100%的檢索完整性,在處理1,000,000詞元的文本時達到99.7%的檢索完整性,甚至在處理高達10,000,000詞元的文本時,檢索準確性仍然高達99.2%。(2)音頻處理,Gemini1.5Pro能夠在大約11小時的音頻資料中,100%成功檢索到各種隱藏的音頻片段。3.5.2Gemini1.5多模態(tài)大模型(3)視頻處理,Gemini1.5Pro能夠在大約3小時的視頻內(nèi)容中,100%成功檢索到各種隱藏的視覺元素。3.5.2Gemini1.5多模態(tài)大模型此外,谷歌研究人員開發(fā)了一個通用版本的“大海撈針”測試。在這個測試中,模型需要在一定的文本范圍內(nèi)檢索到100個不同的特定信息片段,Gemini1.5Pro在較短文本長度上的性能超過了GPT-4Turbo(見圖3-6),并且在整個100萬詞元的范圍內(nèi)保持了相對穩(wěn)定的表現(xiàn)。圖3-6大海撈針測試分析3.5.2Gemini1.5多模態(tài)大模型大模型發(fā)展到這個階段,模型的上下文窗口已經(jīng)成為了關(guān)鍵的掣肘。模型的上下文窗口由許多詞元組成,它們是處理單詞、圖像、視頻、音頻、代碼這些信息的基礎(chǔ)構(gòu)建。模型的上下文窗口越大,它處理給定提示時能夠接納的信息就越多——這就使得它的輸出更加連貫、相關(guān)和實用。而這次,谷歌通過一系列機器學習的創(chuàng)新,大幅提升了1.5Pro的上下文窗口容量,從Gemini1.0的原始32,000詞元,直接提升到驚人的1,000,000詞元。這就意味著,1.5Pro能夠一次性處理海量信息——比如1小時的視頻、11小時的音頻、超過30,000行的代碼庫或是超過700,000個單詞,甚至曾經(jīng)一度成功測試了高達10,000,000的詞元。3.5.2Gemini1.5多模態(tài)大模型1.深入理解海量信息Gemini1.5Pro可以輕松地分析給定提示中的海量內(nèi)容(見圖3-7),能夠洞察文檔中的對話、事件和細節(jié),展現(xiàn)出對復(fù)雜信息的深刻理解。圖3-7給定提示中的海量內(nèi)容3.5.2Gemini1.5多模態(tài)大模型它對于多復(fù)雜的信息,都能表現(xiàn)出深刻的理解。給它一份阿波羅11號任務(wù)到月球的402頁飛行記錄(見圖3-8),讓它從中列舉3個喜劇性時刻,才過30秒答案就生成了。圖3-8分析阿波羅11號的飛行記錄3.5.2Gemini1.5多模態(tài)大模型接下來,看看它的多模態(tài)功能。把一張圖輸入進去,問它:這是什么時刻?它會回答,“這是阿姆斯特朗邁上月球的一小步,也是人類的一大步”。這次,谷歌還新增了一個功能,允許開發(fā)者上傳多個文件(比如PDF)并提出問題。更大的上下文窗口,就讓模型能夠處理更多信息,從而讓輸出結(jié)果更加一致、相關(guān)且實用。同時,模型在分析長篇、復(fù)雜的文本文檔方面也非常出色,例如雨果的五卷本小說《悲慘世界》(共1382頁,含732,000個詞元)。例如,粗略地畫出一個場景,并詢問“請看這幅圖畫中的事件發(fā)生在書的哪一頁?”模型給出準確的答案——1099頁!3.5.2Gemini1.5多模態(tài)大模型2.橫跨不同媒介Gemini1.5Pro能夠在視頻中展現(xiàn)出深度的理解和推理能力。得益于Gemini的多模態(tài)能力,上傳的視頻會被拆分成數(shù)千個畫面(不包括音頻),以便執(zhí)行復(fù)雜的推理和問題解決任務(wù)。比如,輸入一部44分鐘的無聲電影——巴斯特·基頓主演的經(jīng)典之作《小神探夏洛克》。模型不僅能夠精準地捕捉到電影的各個情節(jié)和發(fā)展,還能洞察到極易被忽略的細微之處。3.5.2Gemini1.5多模態(tài)大模型我們可以問它:找到一張紙從主角口袋中被拿出的瞬間,然后告訴我關(guān)于這個細節(jié)的信息。令人驚喜的是,模型大約用了60秒左右就準確地找出,這個鏡頭是在電影的12:01,還描述出了相關(guān)細節(jié)。果然,模型精準找出了這個鏡頭的時間點,所述細節(jié)也完全準確(見圖3-9)。輸入一張粗略的涂鴉,要求模型找到電影中的對應(yīng)場景,模型也在一分鐘內(nèi)找到了答案。圖3-9找到一張紙從主角口袋中被拿出的瞬間3.5.2Gemini1.5多模態(tài)大模型3.高效處理更長代碼Gemini1.5Pro在處理長達超過100,000行的代碼時,還具備極強的問題解決能力。面對如此龐大的代碼量,它不僅能夠深入分析各個示例,提出實用的修改建議,還能詳細解釋代碼的各個部分是如何協(xié)同工作的。3.5.2Gemini1.5多模態(tài)大模型開發(fā)者可以直接上傳新的代碼庫,利用這個模型快速熟悉、理解代碼結(jié)構(gòu)。模型能夠幫我們理解代碼,或定位某個特定功能的實現(xiàn)位置。在這個例子中,模型能夠處理包含116個文件的JAX代碼庫(746k詞元),并協(xié)助用戶找到實現(xiàn)自動微分反向傳播的確切代碼位置。顯然,在深入了解一個陌生的代碼庫或日常工作中使用的代碼庫時,長上下文處理能力的價值不言而喻。3.5.2Gemini1.5多模態(tài)大模型4.高效架構(gòu)的秘密:MoEGemini1.5的設(shè)計,基于的是谷歌在Transformer和混合專家(MoE)架構(gòu)方面的前沿研究。MoE是一種模型設(shè)計策略,它通過將多個模型(稱為“專家”)直接結(jié)合在一起,以獲得更好的預(yù)測性能。在大模型中,MoE方案可以有效地提高模型的容量和效率。一般而言,大模型的MoE有一個門控機制和一套門控輸出機制來合并和平衡專家的選擇,用于決定每個專家對最終預(yù)測的;有一套專家選擇機制,會根據(jù)門控機制的輸出選擇一部分專家進行預(yù)測。這樣可以減少計算量,并使模型能夠針對不同的輸入選擇最合適的專家,還有一套訓練機制。3.5.2Gemini1.5多模態(tài)大模型不同于傳統(tǒng)的,作為一個龐大的神經(jīng)網(wǎng)絡(luò)運行的Transformer,MoE模型由眾多小型的“專家”神經(jīng)網(wǎng)絡(luò)組成。這些模型可以根據(jù)不同的輸入類型,學會僅激活最相關(guān)的專家網(wǎng)絡(luò)路徑,這樣的專門化,就使得模型效率大幅提升。Gemini1.5的架構(gòu)創(chuàng)新帶來的,不僅僅是更迅速地掌握復(fù)雜任務(wù)、保持高質(zhì)量輸出,在訓練和部署上也變得更加高效,團隊以驚人的速度,不斷迭代和推出更先進的Gemini版本。3.5.2Gemini1.5多模態(tài)大模型5.卡拉曼語翻譯卡拉曼語是新幾內(nèi)亞西部、印度尼西亞巴布亞東部不足200人使用的語言,幾乎未在互聯(lián)網(wǎng)上留下足跡。GeminiPro1.5通過上下文學習掌握了卡拉曼語的知識,其翻譯質(zhì)量可與使用相同材料學習的人相媲美。在英語到卡拉曼語的翻譯中,GeminiPro1.5大幅超過了以往最好的模型得分,并略高于人類基準。這一成就無疑帶來了令人激動的可能性,提升稀有語言的翻譯質(zhì)量。3.5.2Gemini1.5多模態(tài)大模型在人工智能三要素中,谷歌在算力、算法、數(shù)據(jù)方面都具有很明顯的技術(shù)領(lǐng)先優(yōu)勢。自Gemini發(fā)布,谷歌持續(xù)在人工智能方面“狂飆”。2024年2月21日,谷歌又宣布推出全球性能最強大、輕量級的開源模型系列Gemma(在拉丁語中意為“寶石”),分為2B(20億參數(shù))和7B(70億)兩種版本,2B版本甚至可直接在筆記本電腦上運行。3.5.3
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度企業(yè)員工績效評估與薪酬調(diào)整合作合同3篇
- 2024年企事業(yè)單位綠植擺放與養(yǎng)護管理服務(wù)合同3篇
- 2024年某餐飲企業(yè)與食材供應(yīng)商之間的食材采購合同
- 2024年幕墻腳手架施工分包質(zhì)量檢測及整改合同3篇
- 2024年度淘寶電商團隊管理與領(lǐng)導(dǎo)力培訓服務(wù)協(xié)議3篇
- 2024年商鋪租賃合同模板:市中心黃金地段商鋪租賃管理規(guī)范2篇
- 建筑物拆除爆破工程合約
- 食品加工攪拌機租賃合同
- 企業(yè)員工績效承諾書樣版
- 企業(yè)用工信息化管理策略
- 元旦春節(jié)猜謎小游戲150個(含謎底)
- 《報告文學研究》自學考試省考課程習題集及答案
- 信息技術(shù)必修2信息系統(tǒng)與社會1.2《信息系統(tǒng)的功能》說課稿
- 基金業(yè)協(xié)會限售股估值excel實現(xiàn)方法
- 2025陜西延長石油(集團)有限責任公司招聘1881人筆試備考題庫及答案解析
- 《中小學校園食品安全和膳食經(jīng)費管理工作指引》專題培訓
- 國家開放大學Python程序設(shè)計形考任務(wù)實驗六-互聯(lián)網(wǎng)評論數(shù)據(jù)分析及其展示綜合案例
- 物業(yè)經(jīng)理晉升述職報告
- 重癥醫(yī)學科培訓與考核制度
- 北京市2024年中考道德與法治真題試卷(含答案)
- 銀行信貸管理風險控制制度
評論
0/150
提交評論