2025神經(jīng)網(wǎng)絡(luò)與深度學習序列生成模型_第1頁
2025神經(jīng)網(wǎng)絡(luò)與深度學習序列生成模型_第2頁
2025神經(jīng)網(wǎng)絡(luò)與深度學習序列生成模型_第3頁
2025神經(jīng)網(wǎng)絡(luò)與深度學習序列生成模型_第4頁
2025神經(jīng)網(wǎng)絡(luò)與深度學習序列生成模型_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

序列生成模型《神經(jīng)網(wǎng)絡(luò)與深度學習》2025序列數(shù)據(jù)在深度學習的應用中,有很多數(shù)據(jù)是以序列的形式存在,比如聲音、語言、視頻、DNA序列或者其它的時序數(shù)據(jù)等。序列數(shù)據(jù)的潛在規(guī)律以自然語言為例,后一個句子在人腦的語義整合時需要更多的處理時間,更不符合自然語言規(guī)則。規(guī)則是什么?語言模型自然語言理解→一個句子的可能性/合理性!在報那貓告做只那只貓在作報告!那個人在作報告!一切都是概率!序列概率模型

序列概率模型

序列概率模型

序列概率模型

自回歸生成模型在這種序列模型方式中,每一步都需要將前面的輸出作為當前步的輸入,是一種自回歸(autoregressive)的方式。自回歸生成模型(AutoregressiveGenerativeModel)序列生成自回歸生成模型(AutoregressiveGenerativeModel)非自回歸生成模型同時生成所有詞序列生成機習器學<eos>$自回歸的方式可以生成一個無限長度的序列。為了避免這種情況,通常會設(shè)置一個特殊的符號“<eos>”來表示序列的結(jié)束。在訓練時,每個序列樣本的結(jié)尾都加上符號“<eos>”。在測試時,一旦生成了符號“<eos>”,就中止生成過程。生成最可能序列當使用自回歸模型生成一個最可能的序列時,生成過程是一種從左到右的貪婪式搜索過程。在每一步都生成最可能的詞。這種貪婪式的搜索方式是次優(yōu)的,生成的序列并不保證是全局最優(yōu)的。束搜索一種常用的減少搜索錯誤的啟發(fā)式方法是束搜索(BeamSearch)。在每一步的生成中,生成K個最可能的前綴序列,其中K為束的大?。˙eamSize),是一個超參數(shù)。N元統(tǒng)計模型平滑技術(shù)

N元模型的一個主要問題是數(shù)據(jù)稀疏問題。數(shù)據(jù)稀疏問題的一種解決方法是平滑技術(shù)(Smoothing),即給一些沒有出現(xiàn)的詞組合賦予一定先驗概率。平滑技術(shù)是N元模型中的一項必不可少的技術(shù),比如加法平滑的計算公式為:δ=1時,稱為加1平滑。深度序列模型深度序列模型一般可以分為三個部分:嵌入層、特征層、輸出層。嵌入層詞嵌入(WordEmbeddings)https://indico.io/blog/visualizing-with-t-sne/上海北京高興難過特征層特征層可以通過不同類型的神經(jīng)網(wǎng)絡(luò)來實現(xiàn),比如前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。常見的網(wǎng)絡(luò)類型有以下三種:簡單平均前饋神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)特征層:簡單平均歷史信息的平均特征層:前饋神經(jīng)網(wǎng)絡(luò)特征層:循環(huán)網(wǎng)絡(luò)前饋網(wǎng)絡(luò)模型和循環(huán)網(wǎng)絡(luò)模型的不同之處在于循環(huán)神經(jīng)網(wǎng)絡(luò)利用隱藏狀態(tài)來記錄以前所有時刻的信息,而前饋神經(jīng)網(wǎng)絡(luò)只能接受前n?1個時刻的信息。輸出層輸出層為一般使用softmax分類器,接受歷史信息的向量表示,輸出為詞表中每個詞的后驗概率。評價方法困惑度困惑度(Perplexity)是信息論的一個概念,可以用來衡量一個分布的不確定性。給定一個測試文本集合,一個好的序列生成模型應該使得測試集合中的句子的聯(lián)合概率盡可能高。困惑度可以衡量模型分布與樣本經(jīng)驗分布之間的契合程度。困惑度越低則兩個分布越接近。困惑度BLEUBLEU(BilingualEvaluationUnderstudy)是衡量模型生成序列和參考序列之間的N元詞組(N-Gram)的重合度,最早用來評價機器翻譯模型的質(zhì)量,目前也廣泛應用在各種序列生成任務(wù)中。BLEUROUGEROUGE(Recall-OrientedUnderstudyforGistingEvaluation)最早應用于文本摘要領(lǐng)域。和BLEU類似,但ROUGE計算的是召回率(Recall)。序列到序列模型序列到序列模型序列到序列模型基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型基于前饋神經(jīng)網(wǎng)絡(luò)的序列到序列模型基于注意力的序列到序列模型基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列模型基于自注意力的序列到序列模型回顧:注意力模型

回顧:自注意力基于自注意力的全連接神經(jīng)網(wǎng)絡(luò)

也可以看作是一種全連接的圖神經(jīng)網(wǎng)絡(luò)回顧:自注意力示例圖片來源:http://fuyw.top/NLP_02_QANet/QKV模式(Query-Key-Value)圖片來源:http://jalammar.github.io/illustrated-transformer/ThinksMachinesThinksMachinesThinksMachines多頭(multi-head)自注意力模型圖片來源:http://jalammar.github.io/illustrated-transformer/TransformerTransformer基于Transformer的序列到序列模型其它應用文本摘要/2017/04/16/taming-rnns-for-better-summarization.html文本摘要/2017/04/16/taming-rnns-for-better-summarization.html對話LiJ,MonroeW,Ritter

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論