大語言模型通識(shí)微課課件:生成式預(yù)訓(xùn)練語言模型GPT_第1頁(yè)
大語言模型通識(shí)微課課件:生成式預(yù)訓(xùn)練語言模型GPT_第2頁(yè)
大語言模型通識(shí)微課課件:生成式預(yù)訓(xùn)練語言模型GPT_第3頁(yè)
大語言模型通識(shí)微課課件:生成式預(yù)訓(xùn)練語言模型GPT_第4頁(yè)
大語言模型通識(shí)微課課件:生成式預(yù)訓(xùn)練語言模型GPT_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大語言模型通識(shí)微課

生成式預(yù)訓(xùn)練語言模型GPT源自谷歌公司2017年的一篇論文“注意力就是你所需要的”,Transformer是一種在自然語言處理領(lǐng)域中廣泛使用的深度學(xué)習(xí)模型,其主要特點(diǎn)是使用了“自注意力”機(jī)制,允許模型在處理序列數(shù)據(jù)時(shí)考慮所有元素的上下文關(guān)系。Transformer模型首先應(yīng)用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)模型架構(gòu),目標(biāo)是從源語言轉(zhuǎn)換到目標(biāo)語言,Transformer模型完成了對(duì)源語言序列和目標(biāo)語言序列全局依賴的建模。因?yàn)樗m用于并行計(jì)算,其模型復(fù)雜程度使它在精度和性能上較其他模型更好,如今,幾乎全部大語言模型都基于Transformer結(jié)構(gòu)。微課2.2生成式預(yù)訓(xùn)練語言模型GPT可以簡(jiǎn)單地把Transformer看成是一個(gè)黑盒子,當(dāng)我們?cè)谧鑫谋痉g任務(wù)時(shí),輸入一段中文,經(jīng)過這個(gè)黑盒子之后,輸出來的就是翻譯過來的英文。輸入一個(gè)文本時(shí),由編碼器模塊對(duì)該文本編碼,然后傳入解碼器模塊進(jìn)行解碼,得到翻譯后的文本。2.3.1Transformer過程為進(jìn)一步細(xì)化自注意力機(jī)制層,增加了“多頭注意力機(jī)制”的概念,從兩個(gè)方面提高了自注意力層的性能。第一個(gè)方面,擴(kuò)展了模型關(guān)注不同位置的能力。第二個(gè)方面,給自注意力層多個(gè)“表示子空間”。2.3.1Transformer過程Transformer模型主要由編碼器和解碼器兩部分組成。(1)編碼器:由多個(gè)相同的層組成,每一層都有兩個(gè)子層。第一個(gè)子層是自注意力層,考慮輸入序列中所有元素的上下文關(guān)系。第二個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。編碼器的任務(wù)是將輸入序列轉(zhuǎn)換為一組連續(xù)的表示,這些表示考慮了輸入序列中每個(gè)元素的上下文。2.3.2Transformer結(jié)構(gòu)(2)解碼器:也由多個(gè)相同的層組成,每一層有三個(gè)子層。第一個(gè)子層是自注意力層,它在處理當(dāng)前元素時(shí),只考慮該元素及其之前的元素,不考慮其后的元素,這種機(jī)制被稱為掩碼自注意力。第二個(gè)子層是一個(gè)編碼器-解碼器注意力層,它使解碼器可以關(guān)注到編碼器的輸出。第三個(gè)子層是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層后面都跟有一個(gè)殘差連接和層歸一化。解碼器的任務(wù)是基于編碼器的輸出和前面已經(jīng)生成的元素,生成下一個(gè)元素。2.3.2Transformer結(jié)構(gòu)先通過輸入嵌入層將每個(gè)單詞轉(zhuǎn)換為其相對(duì)應(yīng)的向量表示。在從輸入到輸出的語義抽象過程中,主要涉及如下幾個(gè)模塊。(1)注意力層:自注意力操作是基于Transformer的機(jī)器翻譯模型的基本操作,在源語言的編碼和目標(biāo)語言的生成中頻繁地被使用,以建模源語言、目標(biāo)語言任意兩個(gè)單詞之間的依賴關(guān)系。使用多頭注意力機(jī)制整合上下文語義,它使得序列中任意兩個(gè)單詞之間的依賴關(guān)系可以直接被建模而不基于傳統(tǒng)的循環(huán)結(jié)構(gòu),從而更好地解決文本的長(zhǎng)程依賴問題。2.3.3Transformer模塊(2)位置感知前饋網(wǎng)絡(luò)層:前饋層接收自注意力子層的輸出作為輸入,并通過一個(gè)帶有激活函數(shù)的兩層全連接網(wǎng)絡(luò)對(duì)輸入文本序列中的每個(gè)單詞表示進(jìn)行更復(fù)雜的非線性變換。由Transformer結(jié)構(gòu)組成的網(wǎng)絡(luò)結(jié)構(gòu)通常都非常龐大。編碼器和解碼器均由多層基本Transformer塊組成,每一層中都包含復(fù)雜的非線性映射,這就導(dǎo)致模型的訓(xùn)練比較困難。因此在Transformer塊中進(jìn)一步引入殘差連接與層歸一化技術(shù),以進(jìn)一步提升訓(xùn)練的穩(wěn)定性。主要是使用一條直連通道將對(duì)應(yīng)子層的輸入連接到輸出,避免因優(yōu)化產(chǎn)生潛在梯度消失問題。2.3.3Transformer模塊計(jì)算機(jī)視覺領(lǐng)域采用ImageNet(數(shù)據(jù)集)對(duì)模型進(jìn)行一次預(yù)訓(xùn)練,使得模型可以通過海量圖像充分學(xué)習(xí)如何提取特征,再根據(jù)任務(wù)目標(biāo)進(jìn)行模型微調(diào)。受此范式影響,自然語言處理領(lǐng)域基于預(yù)訓(xùn)練語言模型的方法也逐漸成為主流。以ELMo為代表的動(dòng)態(tài)詞向量模型開始了語言模型預(yù)訓(xùn)練,此后,以GPT(生成式預(yù)訓(xùn)練)和BERT(來自變壓器的雙向編碼器表示)為代表的基于Transformer的大規(guī)模預(yù)訓(xùn)練語言模型出現(xiàn),使自然語言處理全面開啟預(yù)訓(xùn)練微調(diào)范式。2.3.4生成式預(yù)訓(xùn)練語言模型GPT利用豐富的訓(xùn)練數(shù)據(jù)、自監(jiān)督的預(yù)訓(xùn)練任務(wù)及Transformer等深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),預(yù)訓(xùn)練語言模型具備了通用且強(qiáng)大的自然語言表示能力,能夠有效地學(xué)習(xí)到詞匯、語法和語義信息。將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)時(shí),不需要了解太多的任務(wù)細(xì)節(jié),不需要設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),只需要“微調(diào)”預(yù)訓(xùn)練模型,即使用具體任務(wù)的標(biāo)注數(shù)據(jù)在預(yù)訓(xùn)練語言模型上進(jìn)行監(jiān)督訓(xùn)練,就可以取得顯著的性能提升。2.3.4生成式預(yù)訓(xùn)練語言模型GPTOpenAI公司在2018年提出的GPT是典型的生成式預(yù)訓(xùn)練語言模型,它由多層Transformer組成單向語言模型,主要分為輸入層、編碼層和輸出層三部分。

圖2-13GPT的模型結(jié)構(gòu)2.3.4生成式預(yù)訓(xùn)練語言模型GPT(1)無監(jiān)督預(yù)訓(xùn)練。GPT采用生成式預(yù)訓(xùn)練方法,單向意味著模型只能從左到右或從右到左地對(duì)文本序列建模,所采用的Transformer結(jié)構(gòu)和解碼策略保證了輸入文本每個(gè)位置只能依賴過去時(shí)刻的信息。(2)有監(jiān)督下游任務(wù)微調(diào)。通過無監(jiān)督語言模型預(yù)訓(xùn)練,使得GPT模型具備了一定的通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論