第2章大模型基礎(chǔ)

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-08-23 格式：PPTX 頁(yè)數(shù)：86 大?。?.68MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩81頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

浙江省普通本科高校“十四五”重點(diǎn)教材大語(yǔ)言模型通識(shí)大語(yǔ)言模型通識(shí)周蘇教授QQ：81505050第2章大模型基礎(chǔ)語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù)和核心問(wèn)題，其目標(biāo)是對(duì)自然語(yǔ)言的概率分布建模。大量的研究從n元語(yǔ)言模型、神經(jīng)語(yǔ)言模型以及預(yù)訓(xùn)練語(yǔ)言模型等不同角度開(kāi)展了一系列工作。這些研究在不同階段對(duì)自然語(yǔ)言處理任務(wù)有重要作用。隨著基于谷歌Transformer的各類語(yǔ)言模型的發(fā)展及預(yù)訓(xùn)練微調(diào)范式在自然語(yǔ)言處理各類任務(wù)中取得突破性進(jìn)展，從OpenAI發(fā)布GPT-3開(kāi)始，對(duì)大語(yǔ)言模型的研究逐漸深入。雖然大模型的參數(shù)量巨大，通過(guò)有監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)能夠完成非常多的任務(wù)，但是其基礎(chǔ)理論仍然離不開(kāi)對(duì)語(yǔ)言的建模。第2章大模型基礎(chǔ)01什么是語(yǔ)言模型02大模型發(fā)展三階段03Transformer模型04生成式預(yù)訓(xùn)練語(yǔ)言模型GPT目錄/CONTENTS05大模型的結(jié)構(gòu)PART01什么是語(yǔ)言模型語(yǔ)言模型起源于語(yǔ)音識(shí)別。輸入一段音頻數(shù)據(jù)，語(yǔ)音識(shí)別系統(tǒng)通常會(huì)生成多個(gè)句子作為候選，判斷哪個(gè)句子更合理？這就需要用到語(yǔ)言模型對(duì)候選句子進(jìn)行排序。語(yǔ)言模型的應(yīng)用范圍早已擴(kuò)展到機(jī)器翻譯、信息檢索、問(wèn)答、文摘等眾多自然語(yǔ)言處理領(lǐng)域。2.1什么是語(yǔ)言模型語(yǔ)言模型是這樣一個(gè)模型：對(duì)于任意的詞序列，它能夠計(jì)算出這個(gè)序列是一句話的概率。例如，詞序列A：“這個(gè)網(wǎng)站|的|文章|真|水|啊”，這個(gè)明顯是一句話，一個(gè)好的語(yǔ)言模型也會(huì)給出很高的概率。再看詞序列B：“這個(gè)網(wǎng)站|的|睡覺(jué)|蘋果|好快”，這明顯不是一句話，如果語(yǔ)言模型訓(xùn)練的好，那么序列B的概率就會(huì)很小。2.1.1語(yǔ)言模型的定義于是，給出語(yǔ)言模型的較為正式的定義。假設(shè)我們要為中文創(chuàng)建一個(gè)語(yǔ)言模型，V表示詞典，V={貓,狗,機(jī)器,學(xué)習(xí),語(yǔ)言,模型,...}，wi∈V。語(yǔ)言模型就是這樣一個(gè)模型：給定詞典V，能夠計(jì)算出任意單詞序列w1,w2,...,wn是一句話的概率p(w1,w2,...,wn)，其中，p≥0。語(yǔ)言模型中計(jì)算p(w1,w2,...,wn)的最簡(jiǎn)單方法是數(shù)數(shù)，假設(shè)訓(xùn)練集中共有N個(gè)句子，數(shù)一下在訓(xùn)練集中(w1,w2,...,wn)出現(xiàn)的次數(shù)，不妨假定為n，則p(w1,w2,...,wn)=n/N?？梢韵胂蟪鲞@個(gè)模型的預(yù)測(cè)能力幾乎為0，一旦單詞序列沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò)，模型的輸出概率就是0。2.1.1語(yǔ)言模型的定義語(yǔ)言模型的另一種等價(jià)定義是：能夠計(jì)算p(wi|w1,w2,...,wi-1)的模型就是語(yǔ)言模型。從文本生成角度來(lái)看，也可以給出如下的語(yǔ)言模型定義：給定一個(gè)短語(yǔ)（一個(gè)詞組或一句話），語(yǔ)言模型可以生成（預(yù)測(cè)）接下來(lái)的一個(gè)詞。2.1.1語(yǔ)言模型的定義在統(tǒng)計(jì)學(xué)模型為主體的自然語(yǔ)言處理時(shí)期，主要成果是N-gram語(yǔ)言模型。為了簡(jiǎn)化p(wi|w1,w2,...,wi-1)的計(jì)算，引入一階馬爾可夫假設(shè)：每個(gè)詞只依賴前一個(gè)詞；也可以引入二階馬爾可夫假設(shè)：每個(gè)詞依賴前兩個(gè)詞。有了馬爾可夫假設(shè)，就可以方便的計(jì)算條件概率。此外，還有前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型及其他預(yù)訓(xùn)練語(yǔ)言模型。2.1.1語(yǔ)言模型的定義語(yǔ)言模型可用于提升語(yǔ)音識(shí)別和機(jī)器翻譯的性能。例如，在語(yǔ)音識(shí)別中，給定一段“廚房里食油用完了”的語(yǔ)音，有可能會(huì)輸出“廚房里食油用完了”和“廚房里石油用完了”這兩個(gè)讀音完全一樣的文本序列。如果語(yǔ)言模型判斷出前者的概率大于后者的概率，就可以根據(jù)相同讀音的語(yǔ)音輸出“廚房里食油用完了”的文本序列。在機(jī)器翻譯中，如果對(duì)英文“yougofirst”逐詞翻譯成中文的話，可能得到“你走先”“你先走”等排列方式的文本序列。如果語(yǔ)言模型判斷出“你先走”的概率大于其他排列方式的文本序列的概率，我們就可以把“yougofirst”翻譯成“你先走”。2.1.1語(yǔ)言模型的定義早期在解決機(jī)器翻譯這一類序列到序列的問(wèn)題時(shí)，通常采用的做法是利用一個(gè)編碼器和一個(gè)解碼器構(gòu)建端到端的神經(jīng)網(wǎng)絡(luò)模型，但是基于編碼解碼的神經(jīng)網(wǎng)絡(luò)存在兩個(gè)問(wèn)題。拿機(jī)器翻譯作為例子：?jiǎn)栴}1：如果翻譯的句子很長(zhǎng)很復(fù)雜，比如直接一篇文章輸進(jìn)去，模型的計(jì)算量很大，并且模型的準(zhǔn)確率下降嚴(yán)重。問(wèn)題2：在翻譯時(shí)，可能在不同的語(yǔ)境下，同一個(gè)詞具有不同的含義，但是網(wǎng)絡(luò)對(duì)這些詞向量并沒(méi)有區(qū)分度，沒(méi)有考慮詞與詞之間的相關(guān)性，導(dǎo)致翻譯效果比較差。2.1.2注意力機(jī)制同樣，在計(jì)算機(jī)視覺(jué)領(lǐng)域，如果輸入的圖像尺寸很大，做圖像分類或者識(shí)別時(shí)，模型的性能就會(huì)下降。針對(duì)這樣的問(wèn)題，提出了注意力機(jī)制。早在20世紀(jì)九十年代對(duì)注意力機(jī)制就有研究，到2014年弗拉基米爾的《視覺(jué)注意力的反復(fù)模型》一文中將其應(yīng)用在視覺(jué)領(lǐng)域，后來(lái)伴隨著2017年Transformer結(jié)構(gòu)的提出，注意力機(jī)制在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等相關(guān)問(wèn)題上被廣泛應(yīng)用。2.1.2注意力機(jī)制“注意力機(jī)制”實(shí)際上就是想將人的感知方式、注意力的行為應(yīng)用在機(jī)器上，讓機(jī)器學(xué)會(huì)去感知數(shù)據(jù)中的重要和不重要的部分。比如要識(shí)別一張圖片中是一個(gè)什么動(dòng)物時(shí)，我們讓機(jī)器存在這樣一個(gè)注意力側(cè)重點(diǎn)，最重要應(yīng)該關(guān)注的地方是圖片中動(dòng)物的面部特征，包括耳朵、眼睛、鼻子、嘴巴，而不用太關(guān)注背景的一些信息。核心目的是希望機(jī)器能注意到對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息，而對(duì)于其他非關(guān)鍵信息不需要注意太多。同樣，在機(jī)器翻譯中，要讓機(jī)器注意到每個(gè)詞向量之間的相關(guān)性，有側(cè)重地進(jìn)行翻譯，模擬人類理解的過(guò)程。2.1.2注意力機(jī)制對(duì)模型的每一個(gè)輸入項(xiàng)，它可能是圖片中的不同部分，或者是語(yǔ)句中的某個(gè)單詞，分配一個(gè)權(quán)重，這個(gè)權(quán)重的大小代表了我們希望模型對(duì)該部分的關(guān)注程度。這樣，通過(guò)權(quán)重大小來(lái)模擬人在處理信息時(shí)的注意力側(cè)重，有效的提高了模型的性能，并且在一定程度上降低了計(jì)算量。2.1.2注意力機(jī)制深度學(xué)習(xí)中的注意力機(jī)制通?？煞譃槿悾很涀⒁猓ㄈ肿⒁猓?、硬注意（局部注意）和自注意力（內(nèi)注意）（1）軟注意機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重在0~1之間，也就是某些部分關(guān)注多一點(diǎn)，某些部分關(guān)注少一點(diǎn)。由于對(duì)大部分信息都有考慮，但考慮程度不一，所以相對(duì)計(jì)算量也比較大。2.1.2注意力機(jī)制（2）硬注意機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重非0即1，只考慮那部分需要關(guān)注，哪部分不關(guān)注，也就是直接舍棄掉一些不相關(guān)項(xiàng)。優(yōu)勢(shì)在于可以減少一定的時(shí)間和計(jì)算成本，但有可能丟失掉一些本應(yīng)該注意的信息。（3）自注意力機(jī)制：對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重取決于輸入項(xiàng)之間的相互作用，即通過(guò)輸入項(xiàng)內(nèi)部的“表決”來(lái)決定應(yīng)該關(guān)注哪些輸入項(xiàng)。和前兩種相比，在處理很長(zhǎng)的輸入時(shí)，具有并行計(jì)算的優(yōu)勢(shì)。2.1.2注意力機(jī)制當(dāng)前的大模型技術(shù)，可以分為“開(kāi)源”和“閉源”兩大類型。所謂“開(kāi)源”，是指事物規(guī)劃為可以公開(kāi)訪問(wèn)的，因此人們都可以對(duì)其修改并分享?！伴_(kāi)源”這個(gè)詞最初起源于軟件開(kāi)發(fā)，指的是一種開(kāi)發(fā)軟件的特殊形式。但時(shí)至今天，“開(kāi)源”已經(jīng)泛指一組概念——就是所謂“開(kāi)源的方式”。這些概念包括開(kāi)源項(xiàng)目、產(chǎn)品，或是自發(fā)倡導(dǎo)并歡迎開(kāi)放變化、協(xié)作參與、快速原型、公開(kāi)透明、精英體制以及面向社區(qū)開(kāi)發(fā)的原則。2.1.3開(kāi)源還是閉源開(kāi)源軟件的源代碼任何人都可以審查、修改和增強(qiáng)?！霸创a”是軟件中大部分計(jì)算機(jī)用戶都沒(méi)見(jiàn)過(guò)的部分，程序員可以修改代碼來(lái)改變一個(gè)軟件（“程序”或“應(yīng)用”）工作的方式。程序員如果可以接觸到計(jì)算機(jī)程序源代碼，就可以通過(guò)添加功能或修復(fù)問(wèn)題來(lái)改進(jìn)這個(gè)軟件。2.1.3開(kāi)源還是閉源1.開(kāi)源軟件和其他類型軟件的不同有些軟件只有創(chuàng)建它的人、團(tuán)隊(duì)、組織才能修改，并且控制維護(hù)工作，稱之為“專有”或“閉源”軟件。專有軟件只有原作者可以合法地復(fù)制、審查以及修改這個(gè)軟件。為了使用專有軟件，計(jì)算機(jī)用戶必須同意（通常是在軟件第一次運(yùn)行的時(shí)候簽署一份顯示的許可）他們不會(huì)對(duì)軟件做軟件作者沒(méi)有表態(tài)允許的事情。微軟Office和AdobePhotoshop就是專有軟件的例子。2.1.3開(kāi)源還是閉源開(kāi)源軟件不一樣。它的作者讓源代碼對(duì)其他人提供，需要的人都可以查看、復(fù)制、學(xué)習(xí)、修改或分享代碼。LibreOffice（辦公軟件）和GIMP（圖像編輯器）是開(kāi)源軟件的例子。2.1.3開(kāi)源還是閉源就像專有軟件那樣，用戶在使用開(kāi)源軟件時(shí)必須接受一份許可證的條款——但開(kāi)源許可的法律條款和專有軟件的許可截然不同。開(kāi)源許可證影響人們使用、學(xué)習(xí)、修改以及分發(fā)的方式?？偟膩?lái)說(shuō)，開(kāi)源許可證賦予計(jì)算機(jī)用戶按他們想要的目的來(lái)使用開(kāi)源軟件的許可。一些開(kāi)源許可證規(guī)定任何發(fā)布了修改過(guò)的開(kāi)源軟件的人，同時(shí)還要一同發(fā)布它的源代碼。此外，另一些開(kāi)源許可規(guī)定任何修改和分享一個(gè)程序給其他人的人，還要分享這個(gè)程序的源代碼，而且不能收取許可費(fèi)用。2.1.3開(kāi)源還是閉源開(kāi)源軟件許可證有意地提升了協(xié)作和分享，因?yàn)樗鼈冊(cè)试S其他人對(duì)代碼作出修改并將改動(dòng)包含到他們自己的項(xiàng)目中。開(kāi)源許可證鼓勵(lì)開(kāi)發(fā)者隨時(shí)訪問(wèn)、查看、修改開(kāi)源軟件，前提是開(kāi)發(fā)者在分享成果的時(shí)候允許其他人也能夠做相同的事情。2.1.3開(kāi)源還是閉源2.開(kāi)源思想對(duì)開(kāi)發(fā)者和非開(kāi)發(fā)者都有益早期的創(chuàng)造者基于開(kāi)源技術(shù)構(gòu)建了互聯(lián)網(wǎng)本身的大部分——比如Linux操作系統(tǒng)和ApacheWeb服務(wù)器應(yīng)用——任何今天使用互聯(lián)網(wǎng)的人都受益于開(kāi)源軟件。2.1.3開(kāi)源還是閉源每當(dāng)計(jì)算機(jī)用戶瀏覽網(wǎng)頁(yè)、檢查郵件、和朋友聊天、在線收聽(tīng)流媒體音樂(lè)、玩多人游戲的時(shí)候，他們的電腦、手機(jī)或游戲主機(jī)都會(huì)連接到一個(gè)全球性的計(jì)算機(jī)網(wǎng)絡(luò)，使用開(kāi)源軟件來(lái)路由（指路由器從一個(gè)接口上收到數(shù)據(jù)包，根據(jù)數(shù)據(jù)包的目的地址進(jìn)行定向并轉(zhuǎn)發(fā)到另一個(gè)接口的過(guò)程）并將他們的數(shù)據(jù)傳輸?shù)矫媲暗摹氨镜亍痹O(shè)備上。完成這些重要工作的計(jì)算機(jī)通常位于很遠(yuǎn)的地方，用戶不會(huì)實(shí)際看到或物理接觸到它們——所以有些人稱之為“遠(yuǎn)程計(jì)算機(jī)”。2.1.3開(kāi)源還是閉源越來(lái)越多的人開(kāi)始依賴于遠(yuǎn)程計(jì)算機(jī)，在可以在本地完成的任務(wù)在線完成。舉個(gè)例子，人們可能會(huì)使用在線文字處理、電子郵件管理、圖片編輯工具，而在本地的個(gè)人電腦并沒(méi)有安裝運(yùn)行相應(yīng)的軟件。人們輕松地使用瀏覽器或手機(jī)應(yīng)用訪問(wèn)這些程序。當(dāng)他們這么做的時(shí)候，他們參與到了“遠(yuǎn)程計(jì)算”中。2.1.3開(kāi)源還是閉源一些人將遠(yuǎn)程計(jì)算稱為“云計(jì)算”，因?yàn)樗婕暗幕顒?dòng)（像是存儲(chǔ)文件、分享照片、觀看視頻）不僅包含本地設(shè)備，還有一個(gè)遠(yuǎn)程計(jì)算機(jī)全球網(wǎng)絡(luò)，像是圍繞在周圍的大氣。云計(jì)算是日常生活一個(gè)越來(lái)越重要的概念，離不開(kāi)連接互聯(lián)網(wǎng)的設(shè)備。一些云計(jì)算應(yīng)用，比如谷歌應(yīng)用是專有的。其他的，像OwnCloud和NextCould是開(kāi)源的。2.1.3開(kāi)源還是閉源云計(jì)算應(yīng)用運(yùn)行在一些額外的軟件“之上”，這些軟件幫助它們流暢高效地操作，所以人們經(jīng)常說(shuō)那個(gè)軟件運(yùn)行在云計(jì)算應(yīng)用“之下”，為那些應(yīng)用扮演一個(gè)“平臺(tái)”。云計(jì)算平臺(tái)可以是開(kāi)源或閉源的。OpenStack是一個(gè)開(kāi)源云計(jì)算平臺(tái)的例子。2.1.3開(kāi)源還是閉源3.人們更傾向于使用開(kāi)源軟件人們相對(duì)于專有軟件更傾向于開(kāi)源軟件有很多原因，包括：（1）可控。很多人青睞開(kāi)源軟件因?yàn)橄鄬?duì)其他類型軟件他們可以擁有更多的可控制性。他們可以檢查代碼來(lái)保證它沒(méi)有做任何不希望它做的事情，并且可以改變不喜歡的部分。不是開(kāi)發(fā)者的用戶也可以從開(kāi)源軟件獲益，因?yàn)樗麄兛梢砸匀魏文康氖褂眠@個(gè)軟件——而不僅僅是某些人認(rèn)為他們應(yīng)該有的目的。2.1.3開(kāi)源還是閉源（2）訓(xùn)練。其他人喜歡開(kāi)源軟件是因?yàn)樗梢詭椭麄兂蔀楦玫拈_(kāi)發(fā)者。因?yàn)殚_(kāi)源代碼可以公開(kāi)訪問(wèn)，學(xué)生可以在學(xué)習(xí)創(chuàng)建更好的軟件時(shí)輕松地從中學(xué)習(xí)。學(xué)生還可以在提升技能的時(shí)候分享他們的成果給別人，獲得評(píng)價(jià)和批評(píng)。當(dāng)人們發(fā)現(xiàn)程序源代碼中的錯(cuò)誤的時(shí)候，可以將這個(gè)錯(cuò)誤分享給其他人，幫助他們避免犯同樣的錯(cuò)誤。2.1.3開(kāi)源還是閉源（3）安全。一些人傾向開(kāi)源軟件是因?yàn)樗麄冋J(rèn)為它比專有軟件更安全和穩(wěn)定。因?yàn)槿魏稳硕伎梢圆榭春托薷拈_(kāi)源軟件，就會(huì)有人可能會(huì)注意到并修正原作者遺漏的錯(cuò)誤或疏忽。并且因?yàn)檫@么多的開(kāi)發(fā)者可以在同一開(kāi)源軟件上工作，而不用事先聯(lián)系獲取原作者的授權(quán)，相比專有軟件，他們可以更快速地修復(fù)、更新和升級(jí)開(kāi)源軟件。2.1.3開(kāi)源還是閉源（4）穩(wěn)定。許多用戶在重要、長(zhǎng)期的項(xiàng)目中相較專有軟件更加青睞開(kāi)源軟件。因?yàn)殚_(kāi)發(fā)者公開(kāi)分發(fā)開(kāi)源軟件的源代碼，如果最初的開(kāi)發(fā)者停止開(kāi)發(fā)了，關(guān)鍵任務(wù)依賴該軟件的用戶可以確保他們的工具不會(huì)消失，或是陷入無(wú)法修復(fù)的狀態(tài)。另外，開(kāi)源軟件趨向于同時(shí)包含和按照開(kāi)放標(biāo)準(zhǔn)進(jìn)行操作。2.1.3開(kāi)源還是閉源4.“開(kāi)源”的含義不只是指經(jīng)濟(jì)方面的開(kāi)源軟件開(kāi)發(fā)者可以為他們創(chuàng)建或貢獻(xiàn)的開(kāi)源軟件收取費(fèi)用。但在一些情況下，由于開(kāi)源許可證可能會(huì)要求他們?cè)趯④浖u給他人的時(shí)候發(fā)布源代碼，一些開(kāi)發(fā)者發(fā)現(xiàn)向用戶收取軟件服務(wù)和支持（而不是軟件本身）的費(fèi)用會(huì)更加合算。通過(guò)這種方式，他們的軟件仍然保持免費(fèi)，而他們從幫助他人安裝、使用、解決問(wèn)題中賺取費(fèi)用。盡管一些開(kāi)源軟件可能是免費(fèi)的，但開(kāi)源軟件的編程和解決問(wèn)題的技能可能十分有價(jià)值。許多雇主特別尋求雇傭在開(kāi)源軟件方面有工作經(jīng)驗(yàn)的開(kāi)發(fā)者。2.1.3開(kāi)源還是閉源5.“在軟件之外”的開(kāi)源人們更愿意不僅將開(kāi)源視為一種計(jì)算機(jī)軟件開(kāi)發(fā)和許可的方式，也把它視作一種態(tài)度。實(shí)現(xiàn)“開(kāi)源方式”的生活的各個(gè)方面，意味著表達(dá)一種分享的意愿，通過(guò)透明的方式和他人協(xié)作（這樣其他人也可以關(guān)注和加入），擁抱失敗，將它作為一種改進(jìn)的手段，以及期待（甚至鼓勵(lì)）所有人都可以這么做。這也意味著在讓世界變得更好的過(guò)程中扮演一個(gè)積極的角色，這只有在每個(gè)人都可以接觸到對(duì)世界進(jìn)行規(guī)劃的途徑時(shí)才有可能。2.1.3開(kāi)源還是閉源這個(gè)世界充滿了“源代碼”——藍(lán)圖、食譜、規(guī)則——它們引導(dǎo)和塑造我們思考和行動(dòng)的方式。我們相信這些深層代碼（無(wú)論是什么形式）應(yīng)該是開(kāi)放、可接觸、分享的——這樣人們可以參與其中并讓它變得更好。在這里，我們?cè)V說(shuō)開(kāi)源價(jià)值對(duì)生活所有領(lǐng)域的影響的故事——科學(xué)、教育、政府、工業(yè)、健康、法律，以及組織動(dòng)態(tài)。我們是一個(gè)社區(qū)，告訴他人開(kāi)源的方式如何成為最好的方式，因?yàn)閷?duì)開(kāi)源的愛(ài)和其他一樣：當(dāng)它被分享的時(shí)候它會(huì)變得更好。2.1.3開(kāi)源還是閉源PART02大模型發(fā)展三階段在很短的一段實(shí)踐內(nèi)，人們接連迎來(lái)了ChatGPT、Gemini、Gemma和Sora大模型的發(fā)布，整個(gè)人工智能圈和科技圈都異常沸騰。人工智能帶來(lái)的更像是工業(yè)革命的變革浪潮，將逐漸改變我們的生活和工作方式。大模型的發(fā)展歷程并不長(zhǎng)，但是速度相當(dāng)驚人，國(guó)內(nèi)外已經(jīng)有上百種大模型相繼發(fā)布。大模型的發(fā)展可以粗略的分為三個(gè)階段：基礎(chǔ)模型、能力探索、突破發(fā)展。2.2大模型發(fā)展三階段基礎(chǔ)模型階段主要集中于2018年至2021年。2017年瓦斯瓦尼等人提出了Transformer架構(gòu)，在機(jī)器翻譯任務(wù)上取得了突破性進(jìn)展。2018年，谷歌和OpenAI分別提出了BERT和GPT-1模型，開(kāi)啟了預(yù)訓(xùn)練語(yǔ)言模型時(shí)代。BERT-Base版本參數(shù)量為1.1億，BERT-Large的參數(shù)量為3.4億，GPT-1的參數(shù)量1.17億。這在當(dāng)時(shí)，相比其他深度神經(jīng)網(wǎng)絡(luò)的參數(shù)量已經(jīng)是有數(shù)量級(jí)上提升。2019年OpenAI又發(fā)布了GPT-2，其參數(shù)量達(dá)到了5億。此后，谷歌也發(fā)布了參數(shù)規(guī)模為110億的T5模型。2020年OpenAI進(jìn)一步將語(yǔ)言模型參數(shù)量擴(kuò)展到1750億，發(fā)布了GPT-3。2.2.1基礎(chǔ)模型階段此后，國(guó)內(nèi)也相繼推出了一系列的大模型，包括百度ERNIE、華為盤古-α等。這個(gè)階段研究主要集中語(yǔ)言模型本身，包括僅編碼器、編碼器-解碼器、僅解碼器等各種類型的模型結(jié)構(gòu)都有相應(yīng)的研究。模型大小與BERT相類似的算法，通常采用預(yù)訓(xùn)練微調(diào)范式，針對(duì)不同下游任務(wù)進(jìn)行微調(diào)。但是模型參數(shù)量在10億以上時(shí)，由于微調(diào)的計(jì)算量很高，這類模型的影響力在當(dāng)時(shí)相較BERT類模型有不小的差距。2.2.1基礎(chǔ)模型階段能力探索階段集中于2019年至2022年，由于大模型很難針對(duì)特定任務(wù)進(jìn)行微調(diào)，研究者開(kāi)始探索在不針對(duì)單一任務(wù)進(jìn)行微調(diào)的情況下，如何能夠發(fā)揮大模型的能力。2019年雷德福等人就使用GPT-2研究了大模型在零樣本情況下的任務(wù)處理能力。在此基礎(chǔ)上，Brown等人在GPT-3模型上研究了通過(guò)語(yǔ)境學(xué)習(xí)進(jìn)行少樣本學(xué)習(xí)的方法，將不同任務(wù)的少量有標(biāo)注的實(shí)例拼接到待分析的樣本之前輸入語(yǔ)言模型，用語(yǔ)言模型根據(jù)實(shí)例理解任務(wù)并給出正確結(jié)果。在包括TriviaQA、WebQS、CoQA等評(píng)測(cè)集合都展示出了非常強(qiáng)的能力，在有些任務(wù)中甚至超過(guò)了此前的有監(jiān)督方法。2.2.2能力探索階段上述方法不需要修改語(yǔ)言模型的參數(shù)，模型在處理不同任務(wù)時(shí)無(wú)需花費(fèi)大量計(jì)算資源進(jìn)行模型微調(diào)。但是僅依賴基于語(yǔ)言模型本身，其性能在很多任務(wù)上仍然很難達(dá)到有監(jiān)督學(xué)習(xí)效果，因此研究人員們提出了指令微調(diào)方案，將大量各類型任務(wù)，統(tǒng)一為生成式自然語(yǔ)言理解框架，并構(gòu)造訓(xùn)練語(yǔ)料進(jìn)行微調(diào)。2.2.2能力探索階段突破發(fā)展階段以2022年11月ChatGPT的發(fā)布為起點(diǎn)。ChatGPT通過(guò)一個(gè)簡(jiǎn)單的對(duì)話框，利用一個(gè)大模型就可以實(shí)現(xiàn)問(wèn)題回答、文稿撰寫、代碼生成、數(shù)學(xué)解題等過(guò)去自然語(yǔ)言處理系統(tǒng)需要大量小模型訂制開(kāi)發(fā)才能分別實(shí)現(xiàn)的能力。它在開(kāi)放領(lǐng)域問(wèn)答、各類自然語(yǔ)言生成式任務(wù)以及對(duì)話上文理解上所展現(xiàn)出來(lái)的能力遠(yuǎn)超大多數(shù)人的想象。2.2.3突破發(fā)展階段2023年3月GPT-4發(fā)布，相較于ChatGPT又有了非常明顯的進(jìn)步，并具備了多模態(tài)理解能力。GPT-4在多種基準(zhǔn)考試測(cè)試上的得分高于88%的應(yīng)試者，包括美國(guó)律師資格考試、法學(xué)院入學(xué)考試、學(xué)術(shù)能力評(píng)估等。它展現(xiàn)了近乎“通用人工智能（AGI）”的能力。各大公司和研究機(jī)構(gòu)也相繼發(fā)布了此類系統(tǒng)，包括谷歌推出的Bard、百度的文心一言、科大訊飛的星火大模型、智譜ChatGLM等。2.2.3突破發(fā)展階段PART03Transformer模型Transformer是一種在自然語(yǔ)言處理領(lǐng)域中廣泛使用的深度學(xué)習(xí)模型，它源自谷歌公司在2017年發(fā)表的一篇論文“注意力就是你所需要的”。Transformer模型的主要特點(diǎn)是使用了“自注意力”機(jī)制，允許模型在處理序列數(shù)據(jù)時(shí)考慮到序列中所有元素的上下文關(guān)系。Transformer模型首先應(yīng)用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)模型架構(gòu)，目標(biāo)是從源語(yǔ)言轉(zhuǎn)換到目標(biāo)語(yǔ)言，Transformer模型完成了對(duì)源語(yǔ)言序列和目標(biāo)語(yǔ)言序列全局依賴的建模。因?yàn)樗m用于并行化計(jì)算，其模型復(fù)雜程度使它在精度和性能上都要高于之前流行的RNN循環(huán)神經(jīng)網(wǎng)絡(luò)，如今，幾乎全部大語(yǔ)言模型都基于Transformer結(jié)構(gòu)。2.3Transformer模型可以簡(jiǎn)單地把Transformer看成是一個(gè)黑盒子，當(dāng)我們?cè)谧鑫谋痉g任務(wù)時(shí)，輸入一段中文，經(jīng)過(guò)這個(gè)黑盒子之后，輸出來(lái)的就是翻譯過(guò)來(lái)的英文。圖2-1把Transformer當(dāng)成黑盒子2.3.1Transformer過(guò)程黑盒子里面主要有兩部分組成：編碼器組和解碼器組（見(jiàn)圖2-2）。當(dāng)輸入一個(gè)文本的時(shí)候，該文本數(shù)據(jù)經(jīng)過(guò)編碼器模塊對(duì)該文本進(jìn)行編碼，然后將編碼數(shù)據(jù)傳入解碼器模塊進(jìn)行解碼，得到翻譯后的文本。圖2-2黑匣子里面裝著編碼器組和解碼器組2.3.1Transformer過(guò)程一般情況下，編碼器組模塊里邊有6個(gè)小編碼器，同樣的，解碼器組里邊有6個(gè)小解碼器。編碼器里邊是自注意力機(jī)制加上一個(gè)前饋神經(jīng)網(wǎng)絡(luò)（見(jiàn)圖2-4）。圖2-4編碼器內(nèi)部結(jié)構(gòu)2.3.1Transformer過(guò)程我們通過(guò)以下步驟來(lái)解釋自注意力機(jī)制。步驟1：模型最初輸入的是詞向量形式。自注意力機(jī)制，顧名思義就是自己和自己計(jì)算一遍注意力，對(duì)每一個(gè)輸入的詞向量需要構(gòu)建自注意力機(jī)制的輸入。這里，Transformer將詞向量乘上三個(gè)矩陣，得到三個(gè)新的向量，這是為了獲得更多的參數(shù)，提高模型效果。對(duì)于輸入X1（機(jī)器），乘上三個(gè)矩陣后分別得到Q1、K1、V1（見(jiàn)圖2-5）。同樣，對(duì)于輸入X2（學(xué)習(xí)），也乘上三個(gè)不同的矩陣得到Q2、K2、V2。圖2-5得到三個(gè)新的向量2.3.1Transformer過(guò)程步驟2：計(jì)算注意力得分。這個(gè)得分是通過(guò)計(jì)算Q與各個(gè)單詞的K向量的點(diǎn)積得到的。以X1為例，分別將Q1和K1、K2進(jìn)行點(diǎn)積運(yùn)算，假設(shè)分別得到得分112和96（見(jiàn)圖2-6）。圖2-6計(jì)算注意力得分2.3.1Transformer過(guò)程步驟3：將得分分別除以一個(gè)特定數(shù)值8（K向量的維度的平方根，通常K向量的維度是64）這能讓梯度更加穩(wěn)定，得到結(jié)果14和12。步驟4：將上述結(jié)果進(jìn)行softmax運(yùn)算，得到0.88和0.12。softmax運(yùn)算主要是將分?jǐn)?shù)標(biāo)準(zhǔn)化，使得數(shù)都是正數(shù)并且加起來(lái)等于1。2.3.1Transformer過(guò)程步驟5：將V向量乘上softmax的結(jié)果，這主要是為了保持想要關(guān)注的單詞的值不變，而掩蓋掉那些不相關(guān)的單詞，例如將它們乘上很小的數(shù)字（見(jiàn)圖2-7）圖2-7V向量乘softmax2.3.1Transformer過(guò)程步驟6：將帶權(quán)重的各個(gè)V向量加起來(lái)，至此，在這個(gè)位置上（第一個(gè)單詞）產(chǎn)生自注意力機(jī)制層的輸出，其余位置的自注意力機(jī)制輸出計(jì)算方式相同。將上述過(guò)程總結(jié)為一個(gè)公式（見(jiàn)圖2-8）。圖2-8過(guò)程總結(jié)2.3.1Transformer過(guò)程為進(jìn)一步細(xì)化自注意力機(jī)制層，增加了“多頭注意力機(jī)制”的概念，這從兩個(gè)方面提高了自注意力層的性能。第一個(gè)方面，擴(kuò)展了模型關(guān)注不同位置的能力。第二個(gè)方面，給自注意力層多個(gè)“表示子空間”。2.3.1Transformer過(guò)程多頭自注意力機(jī)制不止有一組Q/K/V權(quán)重矩陣，而是有多組（例如用8組），所以每個(gè)編碼器/解碼器使用8個(gè)“頭”（可以理解為8個(gè)互不干擾自的注意力機(jī)制運(yùn)算），每一組的Q/K/V都不相同。然后，得到8個(gè)不同的權(quán)重矩陣Z，每個(gè)權(quán)重矩陣被用來(lái)將輸入向量投射到不同的表示子空間。經(jīng)過(guò)多頭注意力機(jī)制后，就會(huì)得到多個(gè)權(quán)重矩陣Z，將多個(gè)Z進(jìn)行拼接就得到了自注意力機(jī)制層的輸出（見(jiàn)圖2-9）。

圖2-9自注意力機(jī)制層的輸出2.3.1Transformer過(guò)程自注意力機(jī)制層的輸出即是前饋神經(jīng)網(wǎng)絡(luò)層的輸入，只需要一個(gè)矩陣就可以了，不需要8個(gè)矩陣，所以需要把這8個(gè)矩陣壓縮成一個(gè)，這只需要把這些矩陣拼接起來(lái)，然后用一個(gè)額外的權(quán)重矩陣與之相乘即可。最終的Z就作為前饋神經(jīng)網(wǎng)絡(luò)的輸入（見(jiàn)圖2-10）。圖2-108個(gè)矩陣的壓縮2.3.1Transformer過(guò)程接下來(lái)就進(jìn)入小編碼器里邊的前饋神經(jīng)網(wǎng)模塊了。前饋神經(jīng)網(wǎng)絡(luò)的輸入是自注意力機(jī)制的輸出，即圖2-10中的Z，是一個(gè)維度為（序列長(zhǎng)度×D詞向量）的矩陣。之后前饋神經(jīng)網(wǎng)絡(luò)的輸出也是同樣的維度。進(jìn)一步，一個(gè)大的編碼部分就是將這個(gè)過(guò)程重復(fù)6次，最終得到整個(gè)編碼部分的輸出。然后，Transformer中使用6個(gè)解碼器，為了解決梯度消失問(wèn)題，在解碼器和編碼器中都用了殘差神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，即每一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸入不光包含上述自注意力機(jī)制的輸出Z，還包含最原始的輸入。2.3.1Transformer過(guò)程編碼器是對(duì)輸入（機(jī)器學(xué)習(xí)）進(jìn)行編碼，使用的是自注意力機(jī)制+前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。在解碼器中使用的也是同樣的結(jié)構(gòu)，首先對(duì)輸出（機(jī)器學(xué)習(xí)）計(jì)算自注意力得分。不同的地方在于，進(jìn)行自注意力機(jī)制后，將自注意力機(jī)制的輸出與解碼器模塊的輸出計(jì)算一遍注意力機(jī)制得分，之后再進(jìn)入前饋神經(jīng)網(wǎng)絡(luò)模塊。2.3.1Transformer過(guò)程至此，通過(guò)Transformer編碼和解碼兩大模塊，完成將“機(jī)器學(xué)習(xí)”翻譯成“machinelearning”的過(guò)程。解碼器輸出本來(lái)是一個(gè)浮點(diǎn)型的向量，為轉(zhuǎn)化成“machinelearning”這兩個(gè)詞，這個(gè)工作是最后的線性層接上一個(gè)softmax。其中，線性層是一個(gè)簡(jiǎn)單的全連接神經(jīng)網(wǎng)絡(luò)，它將解碼器產(chǎn)生的向量投影到一個(gè)更高維度的向量上，假設(shè)模型的詞匯表是10000個(gè)詞，那么向量就有10000個(gè)維度，每個(gè)維度對(duì)應(yīng)一個(gè)唯一的詞的得分。之后的softmax層將這些分?jǐn)?shù)轉(zhuǎn)換為概率。選擇概率最大的維度，并對(duì)應(yīng)地生成與之關(guān)聯(lián)的單詞作為此時(shí)間步的輸出就是最終的輸出。2.3.1Transformer過(guò)程假設(shè)詞匯表維度是6，那么輸出最大概率詞匯的過(guò)程如圖2-11所示。圖2-11最大概率詞匯過(guò)程以上就是Transformer的框架。整個(gè)框架并沒(méi)有考慮順序信息，這就需要提到“位置編碼”概念，可以讓輸入攜帶位置信息。2.3.1Transformer過(guò)程Transformer模型主要由編碼器和解碼器兩部分組成。（1）編碼器：由多個(gè)相同的層組成，每一層都有兩個(gè)子層。第一個(gè)子層是自注意力層，它可以考慮到輸入序列中所有元素的上下文關(guān)系。第二個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。編碼器的任務(wù)是將輸入序列轉(zhuǎn)換為一組連續(xù)的表示，這些表示考慮了輸入序列中每個(gè)元素的上下文。2.3.2Transformer結(jié)構(gòu)（2）解碼器：也由多個(gè)相同的層組成，每一層有三個(gè)子層。第一個(gè)子層是自注意力層，但它在處理當(dāng)前元素時(shí)，只考慮到該元素及其之前的元素，不考慮其后的元素，這種機(jī)制被稱為掩碼自注意力。第二個(gè)子層是一個(gè)編碼器-解碼器注意力層，它使解碼器可以關(guān)注到編碼器的輸出。第三個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。解碼器的任務(wù)是基于編碼器的輸出和前面已經(jīng)生成的元素，生成下一個(gè)元素。2.3.2Transformer結(jié)構(gòu)基于Transformer的編碼器和解碼器結(jié)構(gòu)如圖2-12所示，左側(cè)和右側(cè)分別對(duì)應(yīng)著編碼器和解碼器結(jié)構(gòu)，它們均由若干個(gè)基本的Transformer塊組成（對(duì)應(yīng)圖中的灰色框）。這里N×表示進(jìn)行了N次堆疊。每個(gè)Transformer塊都接收一個(gè)向量序列{xi}作為輸入，并輸出一個(gè)等長(zhǎng)的向量序列作為輸出{yi}。這里的xi和yi分別對(duì)應(yīng)文本序列中的一個(gè)詞元的表示。yi是當(dāng)前Transformer塊對(duì)輸入xi進(jìn)一步整合其上下文語(yǔ)義后對(duì)應(yīng)的輸出。2.3.2Transformer結(jié)構(gòu)

圖2-12基于Transformer的編碼器和解碼器結(jié)構(gòu)2.3.2Transformer結(jié)構(gòu)先通過(guò)輸入嵌入層將每個(gè)單詞轉(zhuǎn)換為其相對(duì)應(yīng)的向量表示。在從輸入到輸出的語(yǔ)義抽象過(guò)程中，主要涉及如下幾個(gè)模塊。（1）注意力層：自注意力操作是基于Transformer的機(jī)器翻譯模型的基本操作，在源語(yǔ)言的編碼和目標(biāo)語(yǔ)言的生成中頻繁地被使用，以建模源語(yǔ)言、目標(biāo)語(yǔ)言任意兩個(gè)單詞之間的依賴關(guān)系。使用多頭注意力機(jī)制整合上下文語(yǔ)義，它使得序列中任意兩個(gè)單詞之間的依賴關(guān)系可以直接被建模而不基于傳統(tǒng)的循環(huán)結(jié)構(gòu)，從而更好地解決文本的長(zhǎng)程依賴問(wèn)題。2.3.3Transformer模塊（2）位置感知前饋網(wǎng)絡(luò)層：前饋層接收自注意力子層的輸出作為輸入，并通過(guò)一個(gè)帶有ReLU激活函數(shù)的兩層全連接網(wǎng)絡(luò)對(duì)輸入文本序列中的每個(gè)單詞表示進(jìn)行更復(fù)雜的非線性變換。2.3.3Transformer模塊由Transformer結(jié)構(gòu)組成的網(wǎng)絡(luò)結(jié)構(gòu)通常都非常龐大。編碼器和解碼器均由很多層基本的Transformer塊組成，每一層中都包含復(fù)雜的非線性映射，這就導(dǎo)致模型的訓(xùn)練比較困難。因此，研究人員在Transformer塊中進(jìn)一步引入了殘差連接與層歸一化技術(shù)，以進(jìn)一步提升訓(xùn)練的穩(wěn)定性。具體來(lái)說(shuō)，殘差連接主要是指使用一條直連通道將對(duì)應(yīng)子層的輸入連接到輸出，避免在優(yōu)化過(guò)程中因網(wǎng)絡(luò)過(guò)深而產(chǎn)生潛在的梯度消失問(wèn)題。2.3.3Transformer模塊（3）殘差連接：對(duì)應(yīng)圖中的Add部分。它是一條分別作用在上述兩個(gè)子層中的直連通路，被用于連接兩個(gè)子層的輸入與輸出，使信息流動(dòng)更高效，有利于模型的優(yōu)化。（4）層歸一化：對(duì)應(yīng)圖中的Norm部分。它作用于上述兩個(gè)子層的輸出表示序列，對(duì)表示序列進(jìn)行層歸一化操作，同樣起到穩(wěn)定優(yōu)化的作用。2.3.3Transformer模塊PART04生成式預(yù)訓(xùn)練語(yǔ)言模型GPT計(jì)算機(jī)視覺(jué)領(lǐng)域采用ImageNet（數(shù)據(jù)集）對(duì)模型進(jìn)行一次預(yù)訓(xùn)練，使得模型可以通過(guò)海量圖像充分學(xué)習(xí)如何提取特征，再根據(jù)任務(wù)目標(biāo)進(jìn)行模型微調(diào)。受此范式影響，自然語(yǔ)言處理領(lǐng)域基于預(yù)訓(xùn)練語(yǔ)言模型的方法也逐漸成為主流。以ELMo為代表的動(dòng)態(tài)詞向量模型開(kāi)始了語(yǔ)言模型預(yù)訓(xùn)練，此后，以GPT（生成式預(yù)訓(xùn)練）和BERT（來(lái)自變壓器的雙向編碼器表示）為代表的基于Transformer的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)，使自然語(yǔ)言處理全面開(kāi)啟預(yù)訓(xùn)練微調(diào)范式。2.4生成式預(yù)訓(xùn)練語(yǔ)言模型GPT利用豐富的訓(xùn)練數(shù)據(jù)、自監(jiān)督的預(yù)訓(xùn)練任務(wù)及Transformer等深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，預(yù)訓(xùn)練語(yǔ)言模型具備了通用且強(qiáng)大的自然語(yǔ)言表示能力，能夠有效地學(xué)習(xí)到詞匯、語(yǔ)法和語(yǔ)義信息。將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)時(shí)，不需要了解太多的任務(wù)細(xì)節(jié)，不需要設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，只需要“微調(diào)”預(yù)訓(xùn)練模型，即使用具體任務(wù)的標(biāo)注數(shù)據(jù)在預(yù)訓(xùn)練語(yǔ)言模型上進(jìn)行監(jiān)督訓(xùn)練，就可以取得顯著的性能提升。2.4生成式預(yù)訓(xùn)練語(yǔ)言模型GPTOpenAI公司在2018年提出的GPT是典型的生成式預(yù)訓(xùn)練語(yǔ)言模型（見(jiàn)圖2-13），它是由多層Transformer組成的單向語(yǔ)言模型，主要分為輸入層、編碼層和輸出層三部分。

圖2-13GPT的模型結(jié)構(gòu)2.4生成式預(yù)訓(xùn)練語(yǔ)言模型GPT（1）無(wú)監(jiān)督預(yù)訓(xùn)練。GPT采用生成式預(yù)訓(xùn)練方法，單向意味著模型只能從左到右或從右到左地對(duì)文本序列建模，所采用的Transformer結(jié)構(gòu)和解碼策略保證了輸入文本每個(gè)位置只能依賴過(guò)去時(shí)刻的信息。（2）有監(jiān)督下游任務(wù)微調(diào)。通過(guò)無(wú)監(jiān)督語(yǔ)言模型預(yù)訓(xùn)練，使得GPT模型具備了一定的通用語(yǔ)義表示能力。下游任務(wù)微調(diào)的目的是在通用語(yǔ)義表示的基礎(chǔ)上，根據(jù)下游任務(wù)的特性進(jìn)行適配。下游任務(wù)通常需要利用有標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。2.4生成式預(yù)訓(xùn)練語(yǔ)言模型GPTPART05大模型的結(jié)構(gòu)當(dāng)前，絕大多數(shù)大語(yǔ)言模型都采用類似GPT的架構(gòu)，使用基于Transformer結(jié)構(gòu)構(gòu)建的僅由解碼器組成的網(wǎng)絡(luò)結(jié)構(gòu)，采用自回歸的方式構(gòu)建語(yǔ)言模型，但是在位置編碼、層歸一化位置、激活函數(shù)等細(xì)節(jié)上各有不同。下面以LLaMA模型為例進(jìn)行介紹。2.5大模型的結(jié)構(gòu)LLaMA是Meta（原臉書(shū)）公司的開(kāi)源大模型，其參數(shù)量從70億到650億不等。根據(jù)初步測(cè)試，130億參數(shù)的LLaMA模型“在大多數(shù)基準(zhǔn)上”可以勝過(guò)參數(shù)量達(dá)1750億的GPT-3，而且可以在單塊V100GPU上運(yùn)行；而

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第2章大模型基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第2章 大模型基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第2章大模型基礎(chǔ)