自然語言處理導論 課件 第4-6章 詞和語義向量、預訓練語言模型、序列標注_第1頁
自然語言處理導論 課件 第4-6章 詞和語義向量、預訓練語言模型、序列標注_第2頁
自然語言處理導論 課件 第4-6章 詞和語義向量、預訓練語言模型、序列標注_第3頁
自然語言處理導論 課件 第4-6章 詞和語義向量、預訓練語言模型、序列標注_第4頁
自然語言處理導論 課件 第4-6章 詞和語義向量、預訓練語言模型、序列標注_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《自然語言處理導論》第4章詞和語義向量文本:字或字符組成詞、詞組或短語,進而形成句子、段落和篇章。將輸入的文本進行形式化,將其表示為向量或者其他形式這種將文本進行形式化的過程稱為文本表示(textrepresentation)1.OneHot獨熱碼

常見的向量紅色[0,0,0,0,0,0,0,…..,1,0,0,0,0,0,0,0,0]綠色[0,1,0,0,0,0,0,…..,0,0,0,0,0,0,0,0,0]有兩個優(yōu)點:1)這種表示方法具有很好的可解釋性,有利于人工歸納與總結特征,并通過特征組合進行高效的特征工程2)通過多種特征組合得到的表示向量通常是稀疏的二值向量,當用于線性模型時計算效率非常高。最常用的主流的表示文本的方式文本:在基于向量空間模型建立文本表示之前,通常要依據(jù)詞條化、去停用詞、詞形規(guī)范化等預處理技術,對給定文檔進行規(guī)范和約減,將文檔轉化為詞項的序列。“柯基實在是太可愛了,我想養(yǎng)一只”{柯,基,可,愛,我,想,養(yǎng),一,只}2.向量空間模型VSM

{柯,基,可,愛,我,想,養(yǎng),一,只}當然,也可以用詞作為特征項,特征項的集合可以看做是一個詞表(vocabulary),此時特征項也稱為詞項。這個詞表可以從語料集中產生,也可以從外部導入。獲得特征項之后,需要學習其離散表示或分布式表示。離散表示的代表就是詞袋模型、n元語法分布式表示也叫做詞嵌入(wordembedding),經(jīng)典模型是word2vec,還包括后來的Glove、ELMO、GPT和BERT。1:Boblikestoplaybasketball,Jimlikestoo.2:Bobalsolikestoplayfootballgames.基于這兩個文本文檔,構造一個詞典Dict={1.Bob,2.like,3.to,4.play,5.basketball,6.also,7.football,8.games,9.Jim,10.too}詞典一共包含10個不同的單詞,利用詞典的索引號,上面兩個文檔每一個都可以用一個10維向量表示(用整數(shù)數(shù)字0~n(n為正整數(shù))表示某個單詞在文檔中出現(xiàn)的次數(shù)):1:[1,2,1,1,1,0,0,0,1,1]2:[1,1,1,1,0,1,1,1,0,0]詞袋模型1:[1,2,1,1,1,0,0,0,1,1]2:[1,1,1,1,0,1,1,1,0,0]布爾(BOOL)權重:表示該特征項是否出現(xiàn)在當前文本中,如出現(xiàn),則記為1,否則記為0,計算上下文的平均詞向量

輸入Word2vec模型CBoW,即利用中心詞預測所有上下文詞。

Word2vec模型Skip-Gram優(yōu)點一、有效緩解數(shù)據(jù)稀疏問題將每個單詞存儲為空間中一個點,由固定數(shù)量的維度的向量的表示優(yōu)點二、用于類比推理,避免了傳統(tǒng)向量空間模型所需的復雜特征工程優(yōu)點三、可用于預測詞嵌入《自然語言處理導論》第5章預訓練語言模型1.預訓練語言模型概覽2.預訓練語言模型技術預訓練語言模型概覽詞向量(Word

Embeddings)是自然語言處理(NLP)中的核心技術,即將文字轉化為可計算的低維向量自然語言處理中的預訓練詞向量(word2vec,

Glove)等一般通過共現(xiàn)統(tǒng)計在自然語言文本中預訓練獲得預訓練語言模型概覽固定詞向量出現(xiàn)在不同上下文中代表不同的語義自然語言處理中的預訓練解決方案:上下文化(Contextualized)的詞向量預訓練語言模型概覽現(xiàn)代的預訓練語言模型在大規(guī)模無標數(shù)據(jù)進行訓練,展現(xiàn)出在各類下游任務的強大遷移能力現(xiàn)代預訓練語言模型基于特征的方法下游任務有標注數(shù)據(jù)測試數(shù)據(jù)模型精調模型預訓練大規(guī)模無標注數(shù)據(jù)預訓練語言模型概覽2017之前使用預訓練的詞嵌入作為初始化模型本身沒有經(jīng)過預訓練考慮如何將具體任務的上下文融入到具體的神經(jīng)網(wǎng)絡模型中兩種預訓練的范式現(xiàn)代自然語言處理所有的參數(shù)都從預訓練初始化在下游任務或者通用指令上進行進一步精調具有強大的泛化能力未經(jīng)過預訓練經(jīng)過預訓練所有參數(shù)都經(jīng)過預訓練1.預訓練語言模型概覽2.預訓練語言模型技術預訓練語言模型技術首個預訓練語言模型基礎架構:雙向LSTM模型,在10億詞數(shù)據(jù)上訓練將各層的隱藏狀態(tài)合并為上下文單詞嵌入ELMo預訓練語言模型技術前向建模:根據(jù)前k-1個詞去計算第k個詞的概率分布反向建模:根據(jù)k+1到N的詞預測第k個詞的概率分布將前向LSTM和反向LSTM結合進行聯(lián)合訓練ELMo預訓練語言模型技術以LSTM為基座的ELMo取得了優(yōu)秀的效果,但其特征提取能力仍遠小于Transformer后續(xù)的模型幾乎都是基于Transformer架構而構建Transformer預訓練語言模型技術架構:編碼器-解碼器輸入:文本的嵌入向量和位置編碼模型:編碼器和解碼器由相同的塊堆疊而成核心模塊:自注意力機制Transformer預訓練語言模型技術最早的以Transformer(Decoder)為基礎架構的預訓練模型預訓練完成之后,在下游任務上進行微調模型:12層Transformer,隱藏層維度768,線性層維度3072訓練語料:BookCorpus(7000本書)訓練目標:自回歸語言建模,即從左到右進行訓練GPT預訓練語言模型技術無監(jiān)督預訓練優(yōu)化文本序列概率分布的最大似然估計標準的自回歸語言建模有監(jiān)督微調獲取最后一層最后一個詞的隱藏層輸出將隱藏層輸出送入全連接網(wǎng)絡預測最終的標簽GPT預訓練語言模型技術GPT在自然語言推理任務上的實驗結果GPTGPT在問答和推理任務上的實驗結果預訓練語言模型技術與GPT采用相同的架構,但擁有更大的參數(shù)在40GB的文本上進行訓練在未見過的語言文本上取得了最好的困惑度表現(xiàn)越來越清晰的事實:更大的模型、更多的數(shù)據(jù)會帶來更好的效果GPT-2預訓練語言模型技術與GPT,GPT-2采用相同的架構,但擁有1750億參數(shù)在許多零樣本和少樣本場景展現(xiàn)出了人類級別的自然語言理解和生成能力GPT-3預訓練語言模型技術參數(shù)擴增的背后:ScalingLawGPT-3更大的計算量可以帶來更低的預訓練損失更大的計算量可以帶來更好的下游表現(xiàn)效果預訓練語言模型技術預訓練語言模型最具代表性的工作,刷新13個自然語言處理任務的最高水平對于預訓練語料,隨機預測15%的詞,雙向建模其中80%的詞會被替換成一個[MASK]特殊字符其中10%的詞會被替換成另一個隨機的詞其中10%的詞會保持不變,但依然需要預測BERT預訓練語言模型技術BERT-base:12層,768維度隱層,12個注意力頭,1.1億參數(shù)BERT-large:24層,1024維度隱層,16個注意力頭,3.4億參數(shù)語料:BookCorpus(8億詞)、EnglishWikipedia(25億詞)訓練:64塊TPU,訓練4天BERT預訓練語言模型技術基礎范式:預訓練-微調以預訓練的參數(shù)為初始化,在下游任務上進一步更新所有參數(shù)BERT預訓練語言模型技術在多個經(jīng)典自然語言處理任務上達到最好效果QQP:QuoraQuestionPairsQNLI:NaturalLanguageInferenceSST-2SentimentAnalysisCoLA:CorputofLinguisticAcceptability.....BERT預訓練語言模型技術BERT的局限性無法很好地進行自然語言生成而生成任務具有更高的上限如今最流行的模型(ChatGPT、LLaMA)均是GPT架構BERT預訓練語言模型技術XLNetPermutationLanguageModeling將自回歸(Auto-regressive)和自編碼(Auto-encoding)模型進行結合其他架構預訓練語言模型技術Text-to-Text(T5)直接將所有任務統(tǒng)一建模成文本到文本的方式最大模型參數(shù)達到100億采用Encoder-Decoder架構其他架構預訓練語言模型技術預訓練語言模型已經(jīng)成為了現(xiàn)代自然語言處理的基礎設施幾乎所有的預訓練語言模型都是用Transformer作為基礎架構根據(jù)建模目標不同,預訓練語言模型可以分為Encoder、Decoder和Encoder-Decoder三種類型BERT側重于理解,GPT側重于生成,后者上限更高如今的絕大部分預訓練語言模型都是生成式的模型更大的計算量(參數(shù)量&數(shù)據(jù)量)往往帶來更好的效果總結與展望《自然語言處理導論》第6章序列標注直接從網(wǎng)上獲取的數(shù)據(jù)或者來自其他渠道的原始數(shù)據(jù),如醫(yī)生書寫的病歷、網(wǎng)絡論壇數(shù)據(jù)、微信聊天記錄等,都是非結構化數(shù)據(jù),往往都含有噪聲,存在大量的非規(guī)范語言現(xiàn)象,這就為后續(xù)任務的模型學習造成了很大的障礙,因此必須對這些數(shù)據(jù)進行預處理。結構化數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù)庫(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù))非結構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等數(shù)據(jù)采集根據(jù)不同數(shù)據(jù)挖掘任務,數(shù)據(jù)采集渠道和方式有所不同。從數(shù)據(jù)來源的渠道考慮,通常有兩種情況:一、開放域面向社交媒體構建輿情檢測系統(tǒng)時,數(shù)據(jù)來自所有能夠獲取的公共社交網(wǎng)絡,

包括移動終端。盡管文本的主題可能是關于某個或某些特定的話題,但是數(shù)據(jù)來源是公開的;二、封閉域如面向金融領域的文本數(shù)據(jù)挖掘任務處理的數(shù)據(jù)是來自銀行等金融行業(yè)的專有數(shù)據(jù),而面向醫(yī)院的數(shù)據(jù)挖掘任務處理的文本存在于醫(yī)院的醫(yī)療機構內部的專用網(wǎng)絡,普通用戶是無法獲取的。數(shù)據(jù)采集任務在明確了需要進行數(shù)據(jù)挖掘的目標后,接下來就需要從業(yè)務系統(tǒng)中抽取出一個與挖掘目標相關的樣本數(shù)據(jù)子集。標準:一是相關性,二是可靠性,三是有效性,而不是動用全部數(shù)據(jù)。作用:對數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,還可以使我們想要尋找的規(guī)律性更加凸顯出來。數(shù)據(jù)預處理任務(1)詞條化(tokenization):指將給定的文本切分成為詞匯單位的過程西方語言(如英語等)天然使用空格作為詞的分隔符,只需利用空格或標點就能實現(xiàn)詞條化。漢語和部分黏著語(如日語、韓語、越南語等)書寫中沒有詞語分隔標記,因此需要先進行詞語切分,這一過程在中文信息處理中稱作漢語自動分詞(Chinesewordsegmentation,CWS)。和平民主(1)和平、民主(2)和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學生活像白紙(1)大學、生活、像、白紙(2)大學生、活像、白紙基本工具①-漢語自動分詞漢語自動分詞的主要任務是將漢語文本自動切分成詞序列。由于詞是自然語言中具有獨立含義的最小的語言單位,而漢語文本中詞與詞之間有分隔標記,因此,詞語切分是漢語文本處理的第一步。關于漢語自動分詞方法,國內外有大量的研究工作,先后提出了數(shù)十種切分方法:早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)后期的由字構詞的漢語分詞方法最短路徑分詞方法基本思想:在詞圖上選擇一條詞數(shù)最少的路徑。優(yōu)點:好于單向的最大匹配方法最大匹配方法:獨立自主和平等互利的原則最短路徑方法:獨立自主和平等互利的原則缺點:無法解決大部分歧義(下面例子都是最短路徑的結果)

他說的確實在理

他說的確實在理他說的確實在理早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)n元語法以詞組(詞序列)特征作為基本單元,可以捕捉一部分詞序信息。以“為人民工作”為例,假設給出的詞典包含“為人”“人民”“,民工”“工作”,則相應的二元語法切分詞圖如下:關于漢語自動分詞方法,國內外有大量的研究工作,先后提出了數(shù)十種切分方法:早期的基于詞典的分詞方法,如最大匹配方法、最大概率分詞方法、最短路徑分詞方法等中期的統(tǒng)計切分方法,如基于n元語法(n-gram)后期的由字構詞的漢語分詞方法

(character-basedChinesewordsegmentation)。基本思路是:句子中的任何一個單位,包括字、標點、數(shù)字和字母等(統(tǒng)稱為“字”)在詞中的位置只有4種可能:詞首字(記為B)、詞尾字(記為E)、詞中字(記為M)和單字詞(記為S)B,E,M和S稱為詞位標記。B和E總是成對出現(xiàn)。這樣漢語分詞問題轉化為序列標注(Sequencelabeling)問題,可以借助大規(guī)模訓練樣本訓練分類器完成分詞任務。由字構詞的漢語分詞方法原始句子:小說的終極目的是未來講好一個故事。分詞結果:小說/的/終極/目的/是/為了/講/好/一個/故事。用詞位表示標記的分詞結果:小B說E的S終B極E目B的E是S為B了E講S好S一B個E故B事E。(2)

去停用詞(stopwords)在各類文檔中頻繁出現(xiàn)的、附帶極少文本信息的詞“是”盡管不是功能詞,但由于出現(xiàn)頻率很高,對于文本區(qū)分沒有實質性意義,因此通常也作為停用詞被去掉。在具體實現(xiàn)時通常建立一個停用詞表,在特征抽取時直接刪除停用詞表中的詞。常用詞:的、地、得等。虛詞:介詞、連詞等。領域實詞:數(shù)據(jù)庫會議上的“數(shù)據(jù)庫”一詞,可視為停用詞。優(yōu)勢:顯著減小索引結構的大小劣勢:可能降低召回率recall中文停用詞表例子(3)詞形規(guī)范化在針對西方語言的文本挖掘任務中,需要對一個詞的不同形態(tài)進行歸并,即詞形規(guī)范化。詞形規(guī)范化過程包含兩個概念,一是詞形還原(lemmatization),即把任意變形的詞匯還原成為原形(能夠表達完整的語義),如將runs和running還原為run;二是詞干提取(stemming),去除詞綴得到詞根的過程(不一定能夠表達完整的語義),如將fisher轉換為fish、effective轉換為effect。波特詞干提取算法

(PorterStemmingAlgorithm)是一種使用廣泛的英語詞干提取算法,采用基于規(guī)則的實現(xiàn)方法[Porter,1980]。該算法主要包括如下4步:①將字母分為元音和輔音;②利用規(guī)則處理以-s、-ing和-ed為后綴的單詞;③設計專門的規(guī)則處理復雜的后綴(如-ational等);④利用規(guī)則微調處理結果。詞性標注是句法分析的前提和基礎,詞性信息是文本表示的重要特征,對于命名實體識別、關系抽取和文本情感分析等都具有重要的幫助。詞性標注是指自動為句子中的每個詞打上詞性類別標簽,如句子:“天空是蔚藍的?!北环衷~和加注詞性后為:天空/NN是/NV蔚藍/AA的/Aux。/PU符號NN是名詞標記,VV是動詞標記,AA是形容詞標記,Aux是結構助詞標記,PU是標點符號的標記。(4)詞性標注自動詞性標注-基于規(guī)則的方法通過機器學習,運用初始狀態(tài)標注器標識未標注的文本,由此產生已標注的文本,并將其與正確的標注文本進行比較,糾正錯誤的標注,使標注結果更接近于正確的標注文本?;谵D換規(guī)則的錯誤驅動的機器學習方法如下:

自動詞性標注-基于概率統(tǒng)計通過了解大量文本的詞匯詞性和出現(xiàn)概率,對概率進行統(tǒng)計優(yōu)化,獲取概率參數(shù),確定無監(jiān)督學習的正確結果。基于統(tǒng)計模型的詞性標注方法有隱馬爾可夫模型,條件隨機場模型,最大熵模型。雖然已經(jīng)取得了較大進展,但有時候訓練語料是有限的。將統(tǒng)計方法和規(guī)則方法結合被認為是解決詞性標注問題的最佳手段。目前如下網(wǎng)站提供自動分詞和詞性標注工具:中科院http:///清華

/復旦

/F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論