《人工智能基礎(chǔ)》第九章課件_第1頁
《人工智能基礎(chǔ)》第九章課件_第2頁
《人工智能基礎(chǔ)》第九章課件_第3頁
《人工智能基礎(chǔ)》第九章課件_第4頁
《人工智能基礎(chǔ)》第九章課件_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能基礎(chǔ)第九章自然語言處理簡介2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄現(xiàn)代語言學(xué)基礎(chǔ)詞語從性質(zhì)上主要分為名詞、動詞、形容詞、副詞、代詞、介詞、連詞、助詞、數(shù)詞和量詞幾大類語句中主干部分包括主語、謂語和賓語三個部分三個輔助成分是定語、狀語和補(bǔ)語

語言標(biāo)記和語料庫語言標(biāo)記(或稱為詞類標(biāo)記)是自然語言分析和理解(尤其是基于統(tǒng)計方法)中的重要步驟,其作用就是對語句中每個詞的詞性進(jìn)行標(biāo)記2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄文本解析文本解析(或稱為句法解析):輸入的一個完整或部分句子,利用解析算法對句子的結(jié)構(gòu)和成分從語法的層面上進(jìn)行分析,給出句子中詞語間的語法或依賴關(guān)系。解析樹的節(jié)點(diǎn)分兩類:一類稱為終結(jié)符號,與語言中的不可拆分的詞語單位相對應(yīng);另一類是非終結(jié)符號,不同類型節(jié)點(diǎn)解析規(guī)則解析例子“小猴子快速地吃完香蕉?!苯馕鏊惴?.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄文本向量化表示自然語言屬于符號型數(shù)據(jù),如何把自然語言轉(zhuǎn)換成數(shù)值型的數(shù)據(jù)是進(jìn)行文本分析和挖掘的前提,也是自然語言處理中的一個重要步驟。指示向量法:假設(shè)一個詞典中包括了個有序排列的詞語,其中每個詞語在詞典中的位置是固定不變且唯一的(多義詞可按詞的不同意義依次排列在一起),那么就可以為每一個詞語分配一個單位向量。這個單位向量中在該詞語對應(yīng)的位置上為1,而其他位置均為0“今天天氣很晴朗。”

文本向量化表示W(wǎng)ord2vec法:當(dāng)輸入詞語時,編碼函數(shù)能夠使那些經(jīng)常在文本中出現(xiàn)在附件的詞語獲得較大的輸出概率,而使那些很少與一起出現(xiàn)的詞語獲得較小的出現(xiàn)概率。極大似然:Word2vec假設(shè)給定一段包含T個詞語的文本作為訓(xùn)練樣本,從文本的第一個詞語開始,逐個考察每個詞語作為中心詞語時其他詞語在它周圍半徑為m的范圍內(nèi)出現(xiàn)的概率。對每個詞,都要求經(jīng)常出現(xiàn)在它周圍的詞語的條件概率最大化(9-3)Word2vec為每個詞語w定義兩個表示向量條件概率轉(zhuǎn)化為softmaxWord2vec的目標(biāo)就是通過最小化式(9-3)來求取每個單詞對應(yīng)的表示向量,具體優(yōu)化算法可以使用梯度下降。2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄語言預(yù)測語言預(yù)測(或者成為語言建模)就是根據(jù)已有的部分語句預(yù)測下一個最可能出現(xiàn)的詞匯是什么,例如語言預(yù)測就是按順序給出一串t個詞語,計算第t+1個詞語是的概率是多少“學(xué)生們打開了他們的()”n元語法模型(n-gram)n元語法模型假設(shè)計算第t+1個詞語概率只與它前面的n個詞語有關(guān),而與更早前的詞語無關(guān)n取值變大時,需要計算和存儲的概率也會呈現(xiàn)組合式的指數(shù)暴增,通常n取2到4比較合適“學(xué)生們|打開|了|他們|的|”

n元語法模型(n-gram)以2元語法模型為例,對于給定的訓(xùn)練文本,我們只需要計算“他們的”后面跟不同詞語時分別出現(xiàn)的次數(shù),然后除以“他們的”出現(xiàn)總次數(shù)就得到了對應(yīng)的后面預(yù)測不同詞語的概率例如假設(shè)一段文字中“他們的”一共出現(xiàn)了80次,而其中“他們的試卷”、“他們的書本”、“他們的電腦”各自出現(xiàn)了5次、60次和15次,則可以計算出不同詞語的預(yù)測概率如下循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)網(wǎng)絡(luò)是處理時序或者序列數(shù)據(jù)最有力的工具之一,因此在自然語言處理中也有著非常重要的應(yīng)用基本結(jié)構(gòu)如下訓(xùn)練過程就是要根據(jù)每一時刻的輸出和真是詞語對應(yīng)的指示向量相比求出誤差,然后采用反向傳播算法訓(xùn)練三個網(wǎng)絡(luò)權(quán)重使得網(wǎng)絡(luò)輸出和期望的序列盡可能的相同循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)際操作時從文本的第一個詞語開始把每個詞語所對應(yīng)的數(shù)值向量(如word2vec)依次逐個輸入,每次輸入后網(wǎng)絡(luò)給出詞典中每個詞對應(yīng)的概率,然后選出最大概率對應(yīng)的詞語作為預(yù)測結(jié)果,然后在輸入下一個詞語其時序展開結(jié)果如下所示2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測2.5機(jī)器翻譯目錄機(jī)器翻譯機(jī)器翻譯:輸入一種語言(稱之為源語言,如中文),然后由機(jī)器學(xué)習(xí)算法自動翻譯成另一種語言表述(稱之為目標(biāo)語言,如英文)基于統(tǒng)計模型:首先從大量人工翻譯好的文本中學(xué)習(xí)出源語言與目標(biāo)語言直接的對應(yīng)關(guān)系,然后利用語言建模進(jìn)行詞匯級的匹配,也稱為詞語對齊源語言:“猴子喜歡吃香蕉?!?/p>

目標(biāo)語言:“(a)monkeylike(s)eat(ing)banana(s).”

機(jī)器翻譯循環(huán)網(wǎng)絡(luò)翻譯算法又稱為端到端(end-to-end)或者串到串(seq2seq)的學(xué)習(xí),包括

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論