《深度學(xué)習(xí) 》課件第5章-深度序列模型

上傳人：y*** IP屬地：山東上傳時(shí)間：2025-04-09 格式：PPTX 頁數(shù)：46 大?。?.01MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

5深度序列模型目錄

CONTENTS深度序列模型概述1Seq2Seq模型基礎(chǔ)2融入注意力機(jī)制的Seq2Seq模型3Transformer模型基礎(chǔ)4Transformer變體56總結(jié)深度序列模型概述11.1深度序列模型定義深度序列模型定義處理輸入/輸出為序列的神經(jīng)網(wǎng)絡(luò)（文本、語音、時(shí)間序列等）典型任務(wù)：情感分析（輸入序列→分類標(biāo)簽）、機(jī)器翻譯（序列→序列）模型結(jié)構(gòu)示意圖嵌入層轉(zhuǎn)詞為向量，特征層捕獲上下文特征，輸出層則根據(jù)任務(wù)需求進(jìn)行映射。數(shù)學(xué)表示形式輸入序列X={x?,x?,...,x?}→輸出序列Y={y?,y?,...,y?}模型應(yīng)用示例以翻譯任務(wù)為例，'我愛AI'經(jīng)過嵌入層轉(zhuǎn)為向量，特征層捕獲前后文關(guān)系，輸出層逐詞生成英文序列'IloveAI'。"嵌入層作用將由自然語言序列轉(zhuǎn)化為計(jì)算機(jī)可以理解的詞向量序列獨(dú)熱編碼(One-Hot)獨(dú)熱編碼又稱作一位有效編碼,單詞的one-hot向量只有特征位的值為1,其余位數(shù)均由0填充。優(yōu)點(diǎn):是將自然語言序列轉(zhuǎn)化為詞向量序列最簡(jiǎn)單的方式缺陷:維度災(zāi)難(詞表1萬→1萬維向量)、語義無關(guān)聯(lián)(貓vs狗相似度為0)語義歧義問題:"bank"在金融/河岸場(chǎng)景下的獨(dú)熱編碼相同獨(dú)熱編碼矩陣示例包含獨(dú)熱編碼矩陣。1.2模型嵌入層——獨(dú)熱編碼（One-Hot）優(yōu)點(diǎn)相比于One-Hot編碼,Word2Vec模型生成的詞向量通常具有較低的維度,能夠捕捉到詞語之間的語義關(guān)系,使得相似含義的詞語在向量空間中距離較近缺點(diǎn)仍然無法解決一詞多義問題,例如仍然無法區(qū)分"bank"在金融/河岸場(chǎng)景下的含義靜態(tài)詞向量(Word2Vec)簡(jiǎn)介:word2vec是谷歌團(tuán)隊(duì)于2013年提出的一種用于訓(xùn)練詞向量的模型,該方法的出發(fā)點(diǎn)為兩個(gè)含義相似的單詞,應(yīng)該具有相似的詞向量。例如“貓”作為一種受歡迎的寵物,其對(duì)應(yīng)的詞向量應(yīng)該和“狗”更相似,而不是和“蘋果”或者“葡萄”等水果更相似CBOWCBOW:CBOW通過某個(gè)詞周圍的詞語來預(yù)測(cè)當(dāng)前詞語Skip-GramSkip-Gram:Skip-Gram通過語料庫中的某個(gè)詞語預(yù)測(cè)周圍的詞語兩種模型word2vec在訓(xùn)練時(shí)采用的方式是以詞語來預(yù)測(cè)詞語，共包含兩種模型：跳字模型（Skip-Gram）和連續(xù)詞袋模型（CBOW）Word2Vec1.2模型嵌入層——靜態(tài)詞向量（Word2Vec）1.2模型嵌入層——?jiǎng)討B(tài)詞向量（BERT、GPT）缺陷：計(jì)算資源消耗較高優(yōu)點(diǎn)：動(dòng)態(tài)地獲取單詞的詞嵌入表示，可以更好地整合句子序列的語義信息，解決靜態(tài)詞向量無法辨別的一詞多義問題0304動(dòng)態(tài)詞嵌入方法的做法是將自然語言序列輸入到預(yù)訓(xùn)練模型中，取預(yù)訓(xùn)練模型對(duì)應(yīng)的輸出作為詞語的詞嵌入表示簡(jiǎn)介：隨著大規(guī)模預(yù)訓(xùn)練模型的興起，使用BERT、GPT等預(yù)訓(xùn)練模型對(duì)文本進(jìn)行編碼的動(dòng)態(tài)詞嵌入方法逐漸取代了word2vec等靜態(tài)方法。0102動(dòng)態(tài)詞向量（BERT、GPT）1.3模型特征層模型特征層作用特征層將嵌入層得到的詞向量進(jìn)行變換,獲取輸入序列的各種特征。例子以序列為例,當(dāng)文本序列經(jīng)過嵌入層處理后,會(huì)轉(zhuǎn)換成一個(gè)由詞嵌入向量組成的序列。接下來,特征層會(huì)對(duì)這個(gè)詞嵌入向量序列進(jìn)行一系列的線性變換和非線性變換,旨在提取出對(duì)后續(xù)任務(wù)(如分類、生成等)有價(jià)值的特征。特征提取器在深度序列模型中為了更好地提取富含文本信息的語義特征,特征層一般采用RNN作為特征提取器。RNN能夠處理序列數(shù)據(jù),通過捕捉序列中的時(shí)間依賴性來提取特征?；A(chǔ)RNN的缺陷RNN處理長距離依賴時(shí)的能力不足。由于RNN在反向傳播時(shí),梯度會(huì)隨著時(shí)間步長的增加而指數(shù)級(jí)衰減或增長,這導(dǎo)致模型在處理較長序列時(shí)難以捕捉到序列開始部分的信息(梯度消失問題)或?qū)е履Ｐ陀?xùn)練不穩(wěn)定(梯度爆炸問題)。因此,當(dāng)句子長度超過一定閾值(如20個(gè)單詞以上)時(shí),基礎(chǔ)RNN的性能會(huì)顯著下降,甚至失效。RNN改進(jìn):在RNN的眾多變體中,長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)因其能夠有效緩解基礎(chǔ)RNN的梯度消失和梯度爆炸問題而備受青睞。1.3模型特征層LSTM和GRU引入了門控機(jī)制來控制信息的流動(dòng)。這些門控機(jī)制能夠有選擇地保留或遺忘過去的信息，從而允許模型在處理長序列時(shí)能夠捕捉到更遠(yuǎn)的上下文信息。LSTM：LSTM通過輸入門、遺忘門和輸出門來控制信息的流動(dòng)輸入門決定了新信息是否應(yīng)該被添加到細(xì)胞狀態(tài)中，遺忘門則決定了舊信息是否應(yīng)該被保留，而輸出門則控制了細(xì)胞狀態(tài)中的信息是否應(yīng)該被輸出。這種設(shè)計(jì)使得LSTM能夠長期保持信息，同時(shí)避免了傳統(tǒng)RNN中的梯度消失問題。GRU：而GRU則通過更新門和重置門來實(shí)現(xiàn)類似的功能，但結(jié)構(gòu)更為簡(jiǎn)單。更新門決定了前一時(shí)刻的狀態(tài)信息有多少需要保留到當(dāng)前時(shí)刻，而重置門則決定了前一時(shí)刻的狀態(tài)信息有多少需要用于當(dāng)前時(shí)刻的候選狀態(tài)計(jì)算。與LSTM相比，GRU的參數(shù)更少，結(jié)構(gòu)更簡(jiǎn)單，但在許多任務(wù)中卻能達(dá)到與之相當(dāng)甚至更好的性能。LSTM\GRU缺陷：在自然語言序列中，單詞不僅與其左側(cè)的單詞有語義上的聯(lián)系，而且也與其右側(cè)的單詞有關(guān)聯(lián)。這種雙向的語義依賴關(guān)系在LSTM和GRU中并未得到充分的利用，因?yàn)樗鼈兪腔趩蜗蛐蛄刑幚淼?。進(jìn)一步改進(jìn)：因此為了更好地提取序列中的語義信息，特征層往往會(huì)采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來處理詞嵌入序列，以此來得到富含上下文信息的語義特征1.4模型輸出層作用：在自然語言處理模型中，輸出層扮演著將特征層提取的語義特征轉(zhuǎn)化為具體任務(wù)輸出的關(guān)鍵角色。為了實(shí)現(xiàn)多任務(wù)處理，輸出層需要針對(duì)不同的NLP任務(wù)進(jìn)行適配，以滿足不同場(chǎng)景下的需求。以下是對(duì)分類任務(wù)和生成任務(wù)中輸出層設(shè)計(jì)的詳細(xì)解析。分類任務(wù)（情感分析為例）特征向量：從特征層提取出的富含上下文信息的語義特征向量。全連接層：將特征向量映射到一個(gè)與任務(wù)類別數(shù)相匹配的維度空間。以情感分析為例，就是大小為情感極性個(gè)數(shù)的向量Softmax：對(duì)全連接層的輸出進(jìn)行歸一化處理，得到每個(gè)類別的概率分布。標(biāo)簽概率：根據(jù)Softmax層的輸出，選擇概率最高的類別作為最終輸出。以情感分析為例，最終輸出是積極、消極或中立等情感極性的標(biāo)簽。生成任務(wù)（機(jī)器翻譯）輸出層則需要把隱藏狀態(tài)映射到大小為語料庫詞語總數(shù)的向量，采用不同的解碼策略從中選取某個(gè)詞作為某個(gè)時(shí)刻的生成詞。常見解碼策略對(duì)比：貪心搜索：在每一步解碼時(shí)，都選擇當(dāng)前概率最高的詞作為輸出。這種方法速度最快，但由于沒有考慮后續(xù)步驟的影響，可能導(dǎo)致整體翻譯質(zhì)量較低。BeamSearch：在每一步解碼時(shí)，都保留Top-k個(gè)候選詞（即Beam寬度為k），并根據(jù)這些候選詞組合出k個(gè)最優(yōu)的翻譯路徑。在達(dá)到預(yù)設(shè)的結(jié)束條件后，從這些路徑中選擇得分最高的作為最終輸出。BeamSearch方法能夠在保證一定效率的同時(shí)，顯著提高翻譯質(zhì)量。1.5情感分析任務(wù)流程示例以情感分析任務(wù)為例，進(jìn)一步探討深度序列模型的流程輸入文本：“這家餐廳很好”分詞過程嵌入層：將分詞序列轉(zhuǎn)化為詞向量特征層：特征提取輸出層：得到“positive”的情感極性標(biāo)簽對(duì)這一過程做進(jìn)一步的抽象，可以將嵌入層和特征層兩部分合并稱作編碼器，輸出層稱作解碼器1.6編碼器-解碼器架構(gòu)編碼器（Encoder）定義：編碼器是負(fù)責(zé)將輸入數(shù)據(jù)轉(zhuǎn)換為特征表示的神經(jīng)網(wǎng)絡(luò)部分。功能：接收原始輸入數(shù)據(jù)（如文本序列、圖像等）。通過一系列變換（如卷積、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等）提取輸入數(shù)據(jù)的特征。輸出一個(gè)包含輸入數(shù)據(jù)特征的向量表示（通常稱為上下文向量或隱藏狀態(tài)）。解碼器（Decoder）定義：解碼器是負(fù)責(zé)將編碼器的特征表示轉(zhuǎn)換為輸出結(jié)果的神經(jīng)網(wǎng)絡(luò)部分。功能：接收編碼器的特征表示作為輸入。根據(jù)特征表示生成輸出結(jié)果（如文本序列等）?？赡苁褂门c編碼器相似的變換機(jī)制，但通常針對(duì)特定任務(wù)進(jìn)行設(shè)計(jì)。1.7序列生成模型解決的問題自然語言處理領(lǐng)域的眾多子任務(wù)中，一些任務(wù)的輸入形式各不相同，輸出卻均為一段自然語言序列，我們常使用序列生成模型來解決這一類任務(wù)。根據(jù)輸入的不同形式，可以將序列生成模型解決的問題分為以下幾種類型（1）文本到文本生成任務(wù)。這類任務(wù)的輸入同樣是一段自然語言序列，常見的文本到文本生成任務(wù)有機(jī)器翻譯、文本摘要生成、智能問答等；（2）數(shù)據(jù)到文本生成任務(wù)。這類任務(wù)的輸入為結(jié)構(gòu)化的數(shù)據(jù)，常見的結(jié)構(gòu)化數(shù)據(jù)有表格、知識(shí)圖譜等；（3）多媒體到文本生成任務(wù)。這類任務(wù)的輸入來自于文本之外的模態(tài)，例如視頻、音頻等；（4）無條件文本生成任務(wù)。這類任務(wù)的輸入為隨機(jī)噪聲，也可以把這類任務(wù)稱作樸素的語言模型。Seq2Seq模型基礎(chǔ)22.1Seq2Seq模型概述定義一種通用的框架，適用于處理輸入和輸出均為序列的任務(wù)，如機(jī)器翻譯、文本摘要及對(duì)話生成等。奠基性工作：o

Sutskeveretal.(2014)提出了基于LSTM的Seq2Seq模型，從理論上奠定了RNNs在序列任務(wù)中的應(yīng)用基礎(chǔ)。o

Choetal.(2014)引入了門控循環(huán)神經(jīng)網(wǎng)絡(luò)（GRU）作為替代，簡(jiǎn)化了模型結(jié)構(gòu)，提升了訓(xùn)練速度。突破傳統(tǒng)限制：o

傳統(tǒng)模型通常要求輸入和輸出長度相同，而Seq2Seq模型能夠處理可變長度的輸入輸出序列。編碼器-解碼器架構(gòu)：將輸入壓縮為語義向量，再逐詞生成輸出端到端學(xué)習(xí)：模型通過大規(guī)模數(shù)據(jù)訓(xùn)練，通過最小化預(yù)測(cè)輸出和實(shí)際目標(biāo)之間的誤差，自動(dòng)學(xué)習(xí)序列之間的映射關(guān)系，無需手動(dòng)特征工程。核心思想提出背景2.2Seq2Seq模型結(jié)構(gòu)與核心組件整體架構(gòu)圖示·

編碼器：o

輸入序列：[x?,x?,...,x?]

→嵌入層→RNN→隱藏狀態(tài)序列

[h?,h?,...,h?]

→最終隱藏狀態(tài)

C·

解碼器：o

初始輸入：<SOS>，初始隱藏狀態(tài)：C→RNN→輸出詞概率分布→采樣詞→循環(huán)至<EOS>關(guān)鍵符號(hào)與術(shù)語·

<SOS>：StartofSequence（解碼啟動(dòng)信號(hào)）·

<EOS>：EndofSequence（終止條件）·

語義向量C：編碼器最終隱藏狀態(tài)，承載輸入全局信息2.3編碼器詳解RNN的逐詞編碼過程步驟拆解：i.詞嵌入：x→

e（如Word2Vec/Glove）ii.RNN計(jì)算：h=RNN(e,h??)（隱藏狀態(tài)迭代更新）iii.最終狀態(tài)：C=h（輸入序列的語義濃縮）RNN的局限與變體選擇長序列問題：梯度消失/爆炸

→

LSTM/GRU

引入門控機(jī)制雙向RNN：捕捉前后文信息（可選擴(kuò)展）2.4解碼器詳解自回歸生成過程推理階段：O輸入：前一時(shí)刻預(yù)測(cè)詞

y??（而非真實(shí)標(biāo)簽）。O輸出：Softmax生成詞表概率分布

→

取Top-1詞或采樣。訓(xùn)練階段：OTeacherForcing：使用真實(shí)標(biāo)簽作為輸入，加速收斂。解碼終止策略硬終止：生成<EOS>符號(hào)。軟終止：設(shè)定最大生成長度（如50詞）。生成質(zhì)量?jī)?yōu)化貪心搜索vs.BeamSearch：O貪心：每一步選概率最高的詞（易陷入局部最優(yōu)）。OBeamSearch：保留Top-K候選路徑（平衡質(zhì)量與計(jì)算開銷）。2.5數(shù)學(xué)表示與訓(xùn)練方法概率分解公式鏈?zhǔn)椒▌t：損失函數(shù)：負(fù)對(duì)數(shù)似然訓(xùn)練技巧梯度裁剪：防止RNN梯度爆炸。計(jì)劃采樣（ScheduledSampling）：逐步從TeacherForcing過渡到自回歸生成。案例:英語→法語翻譯o輸入:"Hello,howareyou?"o輸出:"Bonjour,comment?ava?"機(jī)器翻譯案例:新聞文章→摘要o輸入:長文本→輸出:關(guān)鍵句組合文本摘要案例:客服機(jī)器人o輸入:用戶提問→輸出:自動(dòng)回復(fù)對(duì)話系統(tǒng)2.6經(jīng)典應(yīng)用場(chǎng)景2.7小結(jié)

推動(dòng)了Encoder-Decoder范式在NLP中的廣泛應(yīng)用?！?/p>

統(tǒng)一框架解決序列生成問題Seq2Seq的核心貢獻(xiàn)01·

多模態(tài)生成:圖文結(jié)合(如圖像描述生成)?！?/p>

低資源優(yōu)化:少樣本/零樣本下的遷移學(xué)習(xí)。未來方向02融入注意力機(jī)制的Seq2Seq模型33.1傳統(tǒng)Seq2Seq的局限性信息瓶頸問題·

固定長度向量C：長序列信息壓縮導(dǎo)致細(xì)節(jié)丟失（如100詞→1向量）。·

解碼器單向量依賴：無法動(dòng)態(tài)選擇輸入序列的關(guān)鍵部分。

案例對(duì)比：機(jī)器翻譯VS人工翻譯·

人工翻譯：動(dòng)態(tài)關(guān)注源語言不同位置（如動(dòng)詞→動(dòng)詞，名詞→名詞）?！?/p>

傳統(tǒng)Seq2Seq：解碼時(shí)僅依賴固定向量C，缺乏局部信息聚焦。

實(shí)驗(yàn)證據(jù)·

輸入序列長度↑→模型性能顯著下降（BLEU分?jǐn)?shù)降低）。3.2注意力機(jī)制的靈感與動(dòng)機(jī)認(rèn)知啟發(fā)·

人類注意力機(jī)制：選擇性關(guān)注輸入的不同部分（如視覺聚焦）?！?/p>

類比翻譯：譯員逐詞翻譯時(shí)動(dòng)態(tài)參考源語句的對(duì)應(yīng)位置。

核心目標(biāo)·

動(dòng)態(tài)上下文：解碼時(shí)根據(jù)當(dāng)前狀態(tài)選擇輸入序列的關(guān)鍵信息。·

解決信息瓶頸：將編碼器的全部隱藏狀態(tài)（而非僅最后狀態(tài)）傳遞給解碼器。3.3注意力機(jī)制核心原理架構(gòu)改進(jìn)（對(duì)比傳統(tǒng)Seq2Seq）·

編碼器輸出：保存所有時(shí)間步的隱藏狀態(tài)序列

[h?,h?,...,h?]?！?/p>

解碼器輸入：o

每一步使用當(dāng)前解碼器隱藏狀態(tài)

與編碼器所有

計(jì)算注意力權(quán)重。o

生成動(dòng)態(tài)上下文向量

c（替代固定向量C）。

注意力權(quán)重計(jì)算流程1.

相似度計(jì)算：（通過神經(jīng)網(wǎng)絡(luò)或點(diǎn)積計(jì)算）2.

權(quán)重歸一化：3.

上下文向量生成：（加權(quán)求和編碼器隱藏狀態(tài)）。

集成到解碼器解碼器輸入=前一步輸出詞+上下文向量

c。更新隱藏狀態(tài)：3.4注意力機(jī)制的優(yōu)勢(shì)與效果核心優(yōu)勢(shì)

緩解信息瓶頸：充分利用編碼器所有隱藏狀態(tài)。

可解釋性：通過熱力圖直觀顯示模型關(guān)注點(diǎn)。

長序列處理能力：在文本摘要、長文檔翻譯任務(wù)中性能顯著提升。實(shí)驗(yàn)結(jié)果

BLEU分?jǐn)?shù)對(duì)比：在英法翻譯任務(wù)中，注意力模型提升10+分。

訓(xùn)練收斂速度：注意力機(jī)制加速模型收斂（減少30%訓(xùn)練時(shí)間）。3.5注意力機(jī)制變體與發(fā)展經(jīng)典變體

加性注意力（Bahdanau）：通過神經(jīng)網(wǎng)絡(luò)計(jì)算相似度。

乘性注意力（Luong）：直接使用點(diǎn)積或矩陣乘法。

自注意力（Self-Attention）：編碼器內(nèi)部捕捉長程依賴

→Transformer的前身。擴(kuò)展應(yīng)用

多層注意力：不同層關(guān)注不同粒度信息（如詞級(jí)、句級(jí)）。

雙向注意力：結(jié)合前向與后向編碼器狀態(tài)（用于閱讀理解）。3.6小結(jié)注意力機(jī)制的意義

革命性貢獻(xiàn)：推動(dòng)Seq2Seq模型在復(fù)雜任務(wù)中的實(shí)用性（如長文本生成）。

通用范式：注意力機(jī)制已成為現(xiàn)代NLP模型的核心組件。未來方向

稀疏注意力：降低計(jì)算復(fù)雜度（如Longformer、BigBird）。

多模態(tài)注意力：跨模態(tài)信息對(duì)齊（如圖像描述生成中的視覺-文本對(duì)齊）。Transformer模型基礎(chǔ)44.1Transformer的誕生與核心思想融入注意力機(jī)制的Seq2Seq的局限性RNN依賴性：仍需循環(huán)網(wǎng)絡(luò)生成隱藏狀態(tài)序列。計(jì)算復(fù)雜度：傳統(tǒng)注意力機(jī)制對(duì)長序列效率低下。提出背景·

論文：Google2017年《AttentionIsAllYouNeed》?！?/p>

目標(biāo)：解決RNN的并行性與長程依賴問題。

核心創(chuàng)新·

去RNN化：完全依賴自注意力機(jī)制?！?/p>

并行編碼：全位置同時(shí)計(jì)算，GPU利用率最大化。·

堆疊模塊：多層相同結(jié)構(gòu)提升模型容量。4.2整體架構(gòu)架構(gòu)圖示·

編碼器：6層相同模塊，每層含自注意力+前饋網(wǎng)絡(luò)。·

解碼器：6層模塊，增加掩碼自注意力與交叉注意力?！?/p>

輸入處理：詞嵌入+位置編碼→編碼器→上下文向量。

關(guān)鍵流程1.

輸入編碼：詞向量與位置編碼相加。2.

編碼器處理：多層自注意力提取全局特征。3.解碼生成：自回歸預(yù)測(cè)，逐步生成輸出序列4.3自注意力與多頭注意力機(jī)制自注意力計(jì)算

輸入：詞向量矩陣

→

線性變換生成Q,K,V。

公式：

縮放因子：防止點(diǎn)積數(shù)值過大導(dǎo)致梯度不穩(wěn)定。多頭注意力動(dòng)機(jī)：捕捉不同子空間的語義關(guān)系（如語法、語義）。實(shí)現(xiàn)：將Q/K/V拆分為h個(gè)頭（如8頭），獨(dú)立計(jì)算后拼接。

輸出維度：h×dv→

合并后通過線性層映射。4.3自注意力與多頭注意力機(jī)制自注意力計(jì)算

輸入：詞向量矩陣

→

線性變換生成Q,K,V。

公式：

輸出維度：h×dv→

合并后通過線性層映射。4.4

詳細(xì)架構(gòu)編碼器層（EncoderLayer）·

步驟：i.

多頭自注意力→殘差連接+層歸一化。ii.

前饋網(wǎng)絡(luò)（FFN）→殘差連接+層歸一化。

解碼器層（DecoderLayer）·

步驟：i.

掩碼自注意力：防止解碼時(shí)看到未來信息。ii.

交叉注意力：對(duì)齊編碼器輸出與當(dāng)前解碼狀態(tài)。iii.

FFN→殘差連接+層歸一化。位置編碼（PositionalEncoding）·

核心作用：為無位置感知的自注意力注入序列順序信息?！?/p>

實(shí)現(xiàn)方式：o

正弦/余弦函數(shù)：固定模式，可泛化到長序列。o

可學(xué)習(xí)參數(shù)：訓(xùn)練中獲得位置向量。

殘差連接與層歸一化·

殘差連接：保留原始信息，緩解梯度消失（公式：輸出=輸入+子層(輸入)）?！?/p>

層歸一化：加速訓(xùn)練收斂，穩(wěn)定梯度流。Transformer變體55.1模塊變體（架構(gòu)級(jí)創(chuàng)新）-自注意力機(jī)制改進(jìn)稀疏注意力（降低復(fù)雜度）

技術(shù)原理o局部窗口注意力（LocalWindow）：每個(gè)token僅關(guān)注鄰近區(qū)域（ViT中的分塊處理）o全局token橋接（GlobalTokens）：加入可學(xué)習(xí)的全局token聚合遠(yuǎn)程信息（BigBird）o隨機(jī)稀疏采樣（RandomSparse）：隨機(jī)選擇部分位置計(jì)算（SparseTransformer）

典型模型oLongformer：滑動(dòng)窗口（512→4096長度）+任務(wù)相關(guān)全局注意力oBigBird：結(jié)合局部+全局+隨機(jī)注意力，數(shù)學(xué)證明逼近全注意力效果oRoutingTransformer：動(dòng)態(tài)聚類生成稀疏連接模式高效注意力（線性復(fù)雜度）

低秩投影oLinformer：將K/V投影到低維空間，復(fù)雜度從O(n2)降為O(n)oPerformer：通過核函數(shù)近似（正交隨機(jī)特征）實(shí)現(xiàn)線性計(jì)算

哈希分桶oReformer：局部敏感哈希（LSH）聚類相似token，僅計(jì)算桶內(nèi)注意力

分塊計(jì)算oBlockwiseTransformer：將序列分塊，塊內(nèi)全連接+塊間稀疏連接5.1模塊變體（架構(gòu)級(jí)創(chuàng)新）-位置編碼創(chuàng)新絕對(duì)位置編碼·

Sinusoidal編碼：原始Transformer的正余弦函數(shù)·

可學(xué)習(xí)編碼：BERT/GPT中隨機(jī)初始化+端到端訓(xùn)練·

缺點(diǎn)：難以泛化到訓(xùn)練長度外的序列相對(duì)位置編碼·

Shaw式編碼：在自注意力計(jì)算中注入位置關(guān)系（如距離線性衰減）·

RPR（RelativePositionalRepresentations）：將位置差映射為可學(xué)習(xí)向量（DeBERTa）·

XLNet式雙流機(jī)制：分離內(nèi)容與位置信息流旋轉(zhuǎn)位置編碼（RoPE）·

數(shù)學(xué)原理：通過復(fù)數(shù)域旋轉(zhuǎn)矩陣融合絕對(duì)位置信息（Llama、PaLM采用）·

優(yōu)勢(shì)：長度外推性強(qiáng)，支持線性插值擴(kuò)展上下文窗口5.1模塊變體（架構(gòu)級(jí)創(chuàng)新）-層歸一化改進(jìn)位置爭(zhēng)議·

Post-LN（原始Transformer）：殘差連接后做歸一化，訓(xùn)練穩(wěn)定但收斂慢·

Pre-LN（主流方案）：歸一化移至殘差前，加速訓(xùn)練但可能損失性能改進(jìn)方案·

DeepNorm：對(duì)殘差路徑進(jìn)行縮放（α=√(2N)，N為層數(shù)），穩(wěn)定千層模型訓(xùn)練（GLM-130B）·

RMSNorm：去除均值中心化，僅用方差歸一化（節(jié)省15%計(jì)算量，Llama采用）·

SandwichNorm：前后雙歸一化（PaLM）5.1模塊變體（架構(gòu)級(jí)創(chuàng)新）-前饋層優(yōu)化激活函數(shù)改進(jìn)·

GatedLinearUnits(GLU)：σ(W1X)?W2X（PaLM驗(yàn)證有效）·

GeGLU：GELU激活的GLU變體（T5v1.1）參數(shù)擴(kuò)展·

專家混合（MoE）：每個(gè)樣本激活部分專家（SwitchTransformer）o

示例：64專家選2個(gè)，保持計(jì)算量不變但參數(shù)量翻倍·

并行前饋層：并行堆疊多個(gè)FFN層（PaLM使用8層并行）5.2應(yīng)用變體（領(lǐng)域擴(kuò)展）-NLP領(lǐng)域編碼器架構(gòu)·

BERT：掩碼語言模型+下一句預(yù)測(cè)·

RoBERTa：動(dòng)態(tài)掩碼+更大批次訓(xùn)練·

ALBERT：參數(shù)共享+因式分解嵌入解碼器架構(gòu)·

GPT系列：?jiǎn)蜗蜃⒁饬?自回歸生成o

GPT-3：稀疏MoE結(jié)構(gòu)o

GPT-4：多模態(tài)擴(kuò)展·

BLOOM：多語言大模型（176B參數(shù)）編解碼架構(gòu)·

T5：統(tǒng)一文本到文本框架·

BART：去噪自編碼器（適合文本生成）5.2應(yīng)用變體（領(lǐng)域擴(kuò)展）-CV領(lǐng)域圖像分類·

ViT：將圖像分割為16x16塊序列o

數(shù)據(jù)不足問題：DeiT通過知識(shí)蒸餾解決·

MobileViT：輕量化設(shè)計(jì)（CNN+Transformer混合）目標(biāo)檢測(cè)·

DETR：基于查詢的端到端檢測(cè)o

改進(jìn)版：DeformableDETR（可變形注意力加速收斂）圖像生成·

ViT-VQGAN：Transformer替代CNN的VQGAN·

DiT：擴(kuò)散模型+Transformer主干（StableDiffusion3采用）5.2應(yīng)用變體（領(lǐng)域擴(kuò)展）-多模態(tài)領(lǐng)域圖文對(duì)齊·

CLIP：對(duì)比學(xué)習(xí)對(duì)齊圖像-文本特征·

ALIGN：十億級(jí)噪聲數(shù)據(jù)訓(xùn)練視頻理解·

ViViT：時(shí)空分離注意力（空間+時(shí)間軸）·

TimeSformer：劃分時(shí)空塊并行處理多模態(tài)生成·

Flamingo：凍結(jié)預(yù)訓(xùn)練模型+適配器微調(diào)·

KOSMOS-1：通用多模態(tài)對(duì)話模型總結(jié)66.1序列到序

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《深度學(xué)習(xí) 》課件第5章-深度序列模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《深度學(xué)習(xí) 》課件 第5章-深度序列模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《深度學(xué)習(xí) 》課件第5章-深度序列模型