《人工智能基礎》第九章課件_第1頁
《人工智能基礎》第九章課件_第2頁
《人工智能基礎》第九章課件_第3頁
《人工智能基礎》第九章課件_第4頁
《人工智能基礎》第九章課件_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能基礎第九章自然語言處理簡介2.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄2.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄現代語言學基礎詞語從性質上主要分為名詞、動詞、形容詞、副詞、代詞、介詞、連詞、助詞、數詞和量詞幾大類語句中主干部分包括主語、謂語和賓語三個部分三個輔助成分是定語、狀語和補語

語言標記和語料庫語言標記(或稱為詞類標記)是自然語言分析和理解(尤其是基于統(tǒng)計方法)中的重要步驟,其作用就是對語句中每個詞的詞性進行標記2.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄文本解析文本解析(或稱為句法解析):輸入的一個完整或部分句子,利用解析算法對句子的結構和成分從語法的層面上進行分析,給出句子中詞語間的語法或依賴關系。解析樹的節(jié)點分兩類:一類稱為終結符號,與語言中的不可拆分的詞語單位相對應;另一類是非終結符號,不同類型節(jié)點解析規(guī)則解析例子“小猴子快速地吃完香蕉?!苯馕鏊惴?.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄文本向量化表示自然語言屬于符號型數據,如何把自然語言轉換成數值型的數據是進行文本分析和挖掘的前提,也是自然語言處理中的一個重要步驟。指示向量法:假設一個詞典中包括了個有序排列的詞語,其中每個詞語在詞典中的位置是固定不變且唯一的(多義詞可按詞的不同意義依次排列在一起),那么就可以為每一個詞語分配一個單位向量。這個單位向量中在該詞語對應的位置上為1,而其他位置均為0“今天天氣很晴朗。”

文本向量化表示Word2vec法:當輸入詞語時,編碼函數能夠使那些經常在文本中出現在附件的詞語獲得較大的輸出概率,而使那些很少與一起出現的詞語獲得較小的出現概率。極大似然:Word2vec假設給定一段包含T個詞語的文本作為訓練樣本,從文本的第一個詞語開始,逐個考察每個詞語作為中心詞語時其他詞語在它周圍半徑為m的范圍內出現的概率。對每個詞,都要求經常出現在它周圍的詞語的條件概率最大化(9-3)Word2vec為每個詞語w定義兩個表示向量條件概率轉化為softmaxWord2vec的目標就是通過最小化式(9-3)來求取每個單詞對應的表示向量,具體優(yōu)化算法可以使用梯度下降。2.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄語言預測語言預測(或者成為語言建模)就是根據已有的部分語句預測下一個最可能出現的詞匯是什么,例如語言預測就是按順序給出一串t個詞語,計算第t+1個詞語是的概率是多少“學生們打開了他們的()”n元語法模型(n-gram)n元語法模型假設計算第t+1個詞語概率只與它前面的n個詞語有關,而與更早前的詞語無關n取值變大時,需要計算和存儲的概率也會呈現組合式的指數暴增,通常n取2到4比較合適“學生們|打開|了|他們|的|”

n元語法模型(n-gram)以2元語法模型為例,對于給定的訓練文本,我們只需要計算“他們的”后面跟不同詞語時分別出現的次數,然后除以“他們的”出現總次數就得到了對應的后面預測不同詞語的概率例如假設一段文字中“他們的”一共出現了80次,而其中“他們的試卷”、“他們的書本”、“他們的電腦”各自出現了5次、60次和15次,則可以計算出不同詞語的預測概率如下循環(huán)神經網絡循環(huán)網絡是處理時序或者序列數據最有力的工具之一,因此在自然語言處理中也有著非常重要的應用基本結構如下訓練過程就是要根據每一時刻的輸出和真是詞語對應的指示向量相比求出誤差,然后采用反向傳播算法訓練三個網絡權重使得網絡輸出和期望的序列盡可能的相同循環(huán)神經網絡實際操作時從文本的第一個詞語開始把每個詞語所對應的數值向量(如word2vec)依次逐個輸入,每次輸入后網絡給出詞典中每個詞對應的概率,然后選出最大概率對應的詞語作為預測結果,然后在輸入下一個詞語其時序展開結果如下所示2.1自然語言處理基礎2.2文本解析2.3

文本向量化表示2.4

語言模型與預測2.5機器翻譯目錄機器翻譯機器翻譯:輸入一種語言(稱之為源語言,如中文),然后由機器學習算法自動翻譯成另一種語言表述(稱之為目標語言,如英文)基于統(tǒng)計模型:首先從大量人工翻譯好的文本中學習出源語言與目標語言直接的對應關系,然后利用語言建模進行詞匯級的匹配,也稱為詞語對齊源語言:“猴子喜歡吃香蕉?!?/p>

目標語言:“(a)monkeylike(s)eat(ing)banana(s).”

機器翻譯循環(huán)網絡翻譯算法又稱為端到端(end-to-end)或者串到串(seq2seq)的學習,包括

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論