《人工智能基礎(chǔ)》第九章課件

上傳人：1*** IP屬地：山東上傳時(shí)間：2024-03-05 格式：PPTX 頁數(shù)：24 大?。?2.41MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩19頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能基礎(chǔ)第九章自然語言處理簡(jiǎn)介2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄現(xiàn)代語言學(xué)基礎(chǔ)詞語從性質(zhì)上主要分為名詞、動(dòng)詞、形容詞、副詞、代詞、介詞、連詞、助詞、數(shù)詞和量詞幾大類語句中主干部分包括主語、謂語和賓語三個(gè)部分三個(gè)輔助成分是定語、狀語和補(bǔ)語

語言標(biāo)記和語料庫語言標(biāo)記（或稱為詞類標(biāo)記）是自然語言分析和理解（尤其是基于統(tǒng)計(jì)方法）中的重要步驟，其作用就是對(duì)語句中每個(gè)詞的詞性進(jìn)行標(biāo)記2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄文本解析文本解析（或稱為句法解析）：輸入的一個(gè)完整或部分句子，利用解析算法對(duì)句子的結(jié)構(gòu)和成分從語法的層面上進(jìn)行分析，給出句子中詞語間的語法或依賴關(guān)系。解析樹的節(jié)點(diǎn)分兩類：一類稱為終結(jié)符號(hào)，與語言中的不可拆分的詞語單位相對(duì)應(yīng)；另一類是非終結(jié)符號(hào)，不同類型節(jié)點(diǎn)解析規(guī)則解析例子“小猴子快速地吃完香蕉。”解析算法2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄文本向量化表示自然語言屬于符號(hào)型數(shù)據(jù)，如何把自然語言轉(zhuǎn)換成數(shù)值型的數(shù)據(jù)是進(jìn)行文本分析和挖掘的前提，也是自然語言處理中的一個(gè)重要步驟。指示向量法：假設(shè)一個(gè)詞典中包括了個(gè)有序排列的詞語，其中每個(gè)詞語在詞典中的位置是固定不變且唯一的（多義詞可按詞的不同意義依次排列在一起），那么就可以為每一個(gè)詞語分配一個(gè)單位向量。這個(gè)單位向量中在該詞語對(duì)應(yīng)的位置上為1，而其他位置均為0“今天天氣很晴朗?！?/p>

文本向量化表示W(wǎng)ord2vec法：當(dāng)輸入詞語時(shí)，編碼函數(shù)能夠使那些經(jīng)常在文本中出現(xiàn)在附件的詞語獲得較大的輸出概率，而使那些很少與一起出現(xiàn)的詞語獲得較小的出現(xiàn)概率。極大似然：Word2vec假設(shè)給定一段包含T個(gè)詞語的文本作為訓(xùn)練樣本，從文本的第一個(gè)詞語開始，逐個(gè)考察每個(gè)詞語作為中心詞語時(shí)其他詞語在它周圍半徑為m的范圍內(nèi)出現(xiàn)的概率。對(duì)每個(gè)詞，都要求經(jīng)常出現(xiàn)在它周圍的詞語的條件概率最大化(9-3)Word2vec為每個(gè)詞語w定義兩個(gè)表示向量條件概率轉(zhuǎn)化為softmaxWord2vec的目標(biāo)就是通過最小化式（9-3）來求取每個(gè)單詞對(duì)應(yīng)的表示向量，具體優(yōu)化算法可以使用梯度下降。2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄語言預(yù)測(cè)語言預(yù)測(cè)（或者成為語言建模）就是根據(jù)已有的部分語句預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞匯是什么，例如語言預(yù)測(cè)就是按順序給出一串t個(gè)詞語，計(jì)算第t+1個(gè)詞語是的概率是多少“學(xué)生們打開了他們的（）”n元語法模型(n-gram)n元語法模型假設(shè)計(jì)算第t+1個(gè)詞語概率只與它前面的n個(gè)詞語有關(guān)，而與更早前的詞語無關(guān)n取值變大時(shí)，需要計(jì)算和存儲(chǔ)的概率也會(huì)呈現(xiàn)組合式的指數(shù)暴增，通常n取2到4比較合適“學(xué)生們|打開|了|他們|的|”

n元語法模型(n-gram)以2元語法模型為例，對(duì)于給定的訓(xùn)練文本，我們只需要計(jì)算“他們的”后面跟不同詞語時(shí)分別出現(xiàn)的次數(shù)，然后除以“他們的”出現(xiàn)總次數(shù)就得到了對(duì)應(yīng)的后面預(yù)測(cè)不同詞語的概率例如假設(shè)一段文字中“他們的”一共出現(xiàn)了80次，而其中“他們的試卷”、“他們的書本”、“他們的電腦”各自出現(xiàn)了5次、60次和15次，則可以計(jì)算出不同詞語的預(yù)測(cè)概率如下循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)網(wǎng)絡(luò)是處理時(shí)序或者序列數(shù)據(jù)最有力的工具之一，因此在自然語言處理中也有著非常重要的應(yīng)用基本結(jié)構(gòu)如下訓(xùn)練過程就是要根據(jù)每一時(shí)刻的輸出和真是詞語對(duì)應(yīng)的指示向量相比求出誤差，然后采用反向傳播算法訓(xùn)練三個(gè)網(wǎng)絡(luò)權(quán)重使得網(wǎng)絡(luò)輸出和期望的序列盡可能的相同循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)際操作時(shí)從文本的第一個(gè)詞語開始把每個(gè)詞語所對(duì)應(yīng)的數(shù)值向量（如word2vec）依次逐個(gè)輸入，每次輸入后網(wǎng)絡(luò)給出詞典中每個(gè)詞對(duì)應(yīng)的概率，然后選出最大概率對(duì)應(yīng)的詞語作為預(yù)測(cè)結(jié)果，然后在輸入下一個(gè)詞語其時(shí)序展開結(jié)果如下所示2.1自然語言處理基礎(chǔ)2.2文本解析2.3

文本向量化表示2.4

語言模型與預(yù)測(cè)2.5機(jī)器翻譯目錄機(jī)器翻譯機(jī)器翻譯：輸入一種語言（稱之為源語言，如中文），然后由機(jī)器學(xué)習(xí)算法自動(dòng)翻譯成另一種語言表述（稱之為目標(biāo)語言，如英文）基于統(tǒng)計(jì)模型：首先從大量人工翻譯好的文本中學(xué)習(xí)出源語言與目標(biāo)語言直接的對(duì)應(yīng)關(guān)系，然后利用語言建模進(jìn)行詞匯級(jí)的匹配，也稱為詞語對(duì)齊源語言：“猴子喜歡吃香蕉。”

目標(biāo)語言：“(a)monkeylike(s)eat(ing)banana(s).”

機(jī)器翻譯循環(huán)網(wǎng)絡(luò)翻譯算法又稱為端到端(end-to-end)或者串到串(seq2seq)的學(xué)習(xí)，包括

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《人工智能基礎(chǔ)》第九章課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《人工智能基礎(chǔ)》第九章課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔