版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能基礎(chǔ)第九章自然語言處理簡介2.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄2.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄現(xiàn)代語言學(xué)基礎(chǔ)詞語從性質(zhì)上主要分為名詞、動詞、形容詞、副詞、代詞、介詞、連詞、助詞、數(shù)詞和量詞幾大類語句中主干部分包括主語、謂語和賓語三個部分三個輔助成分是定語、狀語和補(bǔ)語
語言標(biāo)記和語料庫語言標(biāo)記(或稱為詞類標(biāo)記)是自然語言分析和理解(尤其是基于統(tǒng)計方法)中的重要步驟,其作用就是對語句中每個詞的詞性進(jìn)行標(biāo)記2.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄文本解析文本解析(或稱為句法解析):輸入的一個完整或部分句子,利用解析算法對句子的結(jié)構(gòu)和成分從語法的層面上進(jìn)行分析,給出句子中詞語間的語法或依賴關(guān)系。解析樹的節(jié)點(diǎn)分兩類:一類稱為終結(jié)符號,與語言中的不可拆分的詞語單位相對應(yīng);另一類是非終結(jié)符號,不同類型節(jié)點(diǎn)解析規(guī)則解析例子“小猴子快速地吃完香蕉?!苯馕鏊惴?.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄文本向量化表示自然語言屬于符號型數(shù)據(jù),如何把自然語言轉(zhuǎn)換成數(shù)值型的數(shù)據(jù)是進(jìn)行文本分析和挖掘的前提,也是自然語言處理中的一個重要步驟。指示向量法:假設(shè)一個詞典中包括了個有序排列的詞語,其中每個詞語在詞典中的位置是固定不變且唯一的(多義詞可按詞的不同意義依次排列在一起),那么就可以為每一個詞語分配一個單位向量。這個單位向量中在該詞語對應(yīng)的位置上為1,而其他位置均為0“今天天氣很晴朗。”
文本向量化表示W(wǎng)ord2vec法:當(dāng)輸入詞語時,編碼函數(shù)能夠使那些經(jīng)常在文本中出現(xiàn)在附件的詞語獲得較大的輸出概率,而使那些很少與一起出現(xiàn)的詞語獲得較小的出現(xiàn)概率。極大似然:Word2vec假設(shè)給定一段包含T個詞語的文本作為訓(xùn)練樣本,從文本的第一個詞語開始,逐個考察每個詞語作為中心詞語時其他詞語在它周圍半徑為m的范圍內(nèi)出現(xiàn)的概率。對每個詞,都要求經(jīng)常出現(xiàn)在它周圍的詞語的條件概率最大化(9-3)Word2vec為每個詞語w定義兩個表示向量條件概率轉(zhuǎn)化為softmaxWord2vec的目標(biāo)就是通過最小化式(9-3)來求取每個單詞對應(yīng)的表示向量,具體優(yōu)化算法可以使用梯度下降。2.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄語言預(yù)測語言預(yù)測(或者成為語言建模)就是根據(jù)已有的部分語句預(yù)測下一個最可能出現(xiàn)的詞匯是什么,例如語言預(yù)測就是按順序給出一串t個詞語,計算第t+1個詞語是的概率是多少“學(xué)生們打開了他們的()”n元語法模型(n-gram)n元語法模型假設(shè)計算第t+1個詞語概率只與它前面的n個詞語有關(guān),而與更早前的詞語無關(guān)n取值變大時,需要計算和存儲的概率也會呈現(xiàn)組合式的指數(shù)暴增,通常n取2到4比較合適“學(xué)生們|打開|了|他們|的|”
n元語法模型(n-gram)以2元語法模型為例,對于給定的訓(xùn)練文本,我們只需要計算“他們的”后面跟不同詞語時分別出現(xiàn)的次數(shù),然后除以“他們的”出現(xiàn)總次數(shù)就得到了對應(yīng)的后面預(yù)測不同詞語的概率例如假設(shè)一段文字中“他們的”一共出現(xiàn)了80次,而其中“他們的試卷”、“他們的書本”、“他們的電腦”各自出現(xiàn)了5次、60次和15次,則可以計算出不同詞語的預(yù)測概率如下循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)網(wǎng)絡(luò)是處理時序或者序列數(shù)據(jù)最有力的工具之一,因此在自然語言處理中也有著非常重要的應(yīng)用基本結(jié)構(gòu)如下訓(xùn)練過程就是要根據(jù)每一時刻的輸出和真是詞語對應(yīng)的指示向量相比求出誤差,然后采用反向傳播算法訓(xùn)練三個網(wǎng)絡(luò)權(quán)重使得網(wǎng)絡(luò)輸出和期望的序列盡可能的相同循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)際操作時從文本的第一個詞語開始把每個詞語所對應(yīng)的數(shù)值向量(如word2vec)依次逐個輸入,每次輸入后網(wǎng)絡(luò)給出詞典中每個詞對應(yīng)的概率,然后選出最大概率對應(yīng)的詞語作為預(yù)測結(jié)果,然后在輸入下一個詞語其時序展開結(jié)果如下所示2.1自然語言處理基礎(chǔ)2.2文本解析2.3
文本向量化表示2.4
語言模型與預(yù)測2.5機(jī)器翻譯目錄機(jī)器翻譯機(jī)器翻譯:輸入一種語言(稱之為源語言,如中文),然后由機(jī)器學(xué)習(xí)算法自動翻譯成另一種語言表述(稱之為目標(biāo)語言,如英文)基于統(tǒng)計模型:首先從大量人工翻譯好的文本中學(xué)習(xí)出源語言與目標(biāo)語言直接的對應(yīng)關(guān)系,然后利用語言建模進(jìn)行詞匯級的匹配,也稱為詞語對齊源語言:“猴子喜歡吃香蕉?!?/p>
目標(biāo)語言:“(a)monkeylike(s)eat(ing)banana(s).”
機(jī)器翻譯循環(huán)網(wǎng)絡(luò)翻譯算法又稱為端到端(end-to-end)或者串到串(seq2seq)的學(xué)習(xí),包括
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)付款資產(chǎn)轉(zhuǎn)讓
- 質(zhì)量問題先行賠付
- 混凝土供應(yīng)協(xié)議
- 財務(wù)咨詢服務(wù)協(xié)議樣本
- 服務(wù)改進(jìn)方案合同
- 校園印刷購銷合同
- 鴨毛購銷合同
- 誠信為本杜絕曠工
- 嚴(yán)守校規(guī)我的承諾
- 井位建設(shè)合同范本
- 手術(shù)患者血糖控制方案
- 2023年醫(yī)科醫(yī)學(xué)計算機(jī)應(yīng)用題庫
- (正式版)SHT 3070-2024 石油化工管式爐鋼結(jié)構(gòu)設(shè)計規(guī)范
- 有限元分析實(shí)驗(yàn)報告
- Unit2Whattimedoyougotoschool?大單元整體教學(xué)設(shè)計人教版七年級英語下冊
- JTG F80-1-2004 公路工程質(zhì)量檢驗(yàn)評定標(biāo)準(zhǔn) 第一冊 土建工程
- 浙江科學(xué)技術(shù)出版社小學(xué)五年級下冊綜合實(shí)踐活動完全教案(教學(xué)計劃-進(jìn)度計劃-共14節(jié)課時)新疆有
- 四川音樂學(xué)院附屬中等音樂學(xué)校輔導(dǎo)員招聘考試真題2023
- 浙江省臺州市椒江區(qū)2023-2024學(xué)年四年級上學(xué)期期末科學(xué)試卷
- 第1課《北京的春節(jié)》課件 2023-2024學(xué)年統(tǒng)編版(五四學(xué)制)語文六年級下冊
- 2024版國開電大法律事務(wù)專科《民法學(xué)(1)》期末考試總題庫
評論
0/150
提交評論