![人工智能基礎(chǔ) 課件 6.1~6.10 自然語言處理_第1頁](http://file4.renrendoc.com/view11/M00/3D/3E/wKhkGWXV9GGAWNqIAAHVlv2N-II150.jpg)
![人工智能基礎(chǔ) 課件 6.1~6.10 自然語言處理_第2頁](http://file4.renrendoc.com/view11/M00/3D/3E/wKhkGWXV9GGAWNqIAAHVlv2N-II1502.jpg)
![人工智能基礎(chǔ) 課件 6.1~6.10 自然語言處理_第3頁](http://file4.renrendoc.com/view11/M00/3D/3E/wKhkGWXV9GGAWNqIAAHVlv2N-II1503.jpg)
![人工智能基礎(chǔ) 課件 6.1~6.10 自然語言處理_第4頁](http://file4.renrendoc.com/view11/M00/3D/3E/wKhkGWXV9GGAWNqIAAHVlv2N-II1504.jpg)
![人工智能基礎(chǔ) 課件 6.1~6.10 自然語言處理_第5頁](http://file4.renrendoc.com/view11/M00/3D/3E/wKhkGWXV9GGAWNqIAAHVlv2N-II1505.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
自然語言處理學習目標—6.1—知識目標了解自然語言處理的含義理解自然語言數(shù)字化的基本方法了解神經(jīng)網(wǎng)絡在自然語言處理中的作用項目引導—6.2—6.2.1問題引導假設(shè)有一句話:“小明和同學們經(jīng)常乘地鐵去動物園觀看動物,去植物園觀賞植物。”你可以如何將這句話轉(zhuǎn)變?yōu)閿?shù)字,以方便計算機處理呢?地圖可以將一個地名轉(zhuǎn)變?yōu)閷慕?jīng)緯度數(shù)字表示,我們可以用類似方法建立一個語言地圖,實現(xiàn)我們?nèi)粘UZ言轉(zhuǎn)換為語言地圖上的坐標嗎?這樣是不是就可以實現(xiàn)語言到數(shù)字的轉(zhuǎn)變了呢?6.2.2初步分析假設(shè)每個詞都可以在地圖上找到對應的位置,你如何將每個詞數(shù)字化呢?這些數(shù)字化后的詞可以比較詞義關(guān)系嗎?想一想知識準備—6.3—自然語言處理能實現(xiàn)人與計算機之間用自然語言進行有效通信,是一門融語言學、計算機科學、數(shù)學于一體的科學。它包括很多的內(nèi)容,如語義分析、信息抽取、機器翻譯等。其主要難點有單詞之間的分界的確定、詞義的消歧、句法的模糊性和有瑕疵的或不規(guī)范的輸入等。6.3.1自然語言處理是什么一個解決方法就是詞嵌入,即將詞映射到一個向量空間,也就是將詞嵌入另一個便于計算的空間。6.3.2機器如何理解自然語言6.3.3一個數(shù)字代表一個詞(獨熱編碼)
設(shè)想最簡單的詞嵌入表達方法,我們用自然數(shù)對應各個詞。例如,要把英文數(shù)字化,假設(shè)從“a”到“zoom”有100個詞,如圖所示,就用1代表“a”,2代表“abbreviation”,一直到100代表“zoom”。在計算機中,為了使用方便,會將這些數(shù)字以另外一種形式存儲。例如,在上面的英文數(shù)字化例子中,設(shè)計一個長度為100的由0或者1組成的數(shù)字串(向量),此數(shù)字串(向量)只有一個位置為1,其他99個位置全是0。若將1看作“熱”,0看作“冷”,則這個向量只有一個位置“熱”,所以叫作獨熱編碼。6.3.3一個數(shù)字代表一個詞(獨熱編碼)“a”用1表示,獨熱編碼后就是只有第一個位置為1;“abbreviation”用2表示,獨熱編碼后就是第2個位置為1;“zoom”用100表示,獨熱編碼后就是第100個位置為1。6.3.3一個數(shù)字代表一個詞(獨熱編碼)此模型可以分辨詞與詞之間的關(guān)系嗎?想一想設(shè)想有一個小動物園,有三種動物:獅子、老虎、斑馬,如果采用獨熱編碼,這三種動物就可以分別編碼為(0,0,1),(0,1,0)和(1,0,0)這樣的向量。這三個向量如果放在一個三維空間中,就是如圖所示的樣子。
6.3.3一個數(shù)字代表一個詞(獨熱編碼)憑我們對動物的了解,獅子和老虎都是食肉動物,關(guān)系應該比跟斑馬要近吧,但是從圖中,我們看不出誰跟誰關(guān)系更近。這說明目前的獨熱編碼無法解決詞義關(guān)聯(lián)的問題,我們需要某種方法,能告訴我們一個詞和另一個詞的關(guān)系有多遠或者多近。6.3.3一個數(shù)字代表一個詞(獨熱編碼)6.3.4詞袋模型要解決詞與詞之間的關(guān)系問題并不是很容易,如果只比較一段文本和另一段文本的關(guān)系呢?人們想出了另外一個簡單的方法,詞袋(BagofWords,BoW)模型。深入分析—6.4—神經(jīng)網(wǎng)絡語言模型(NeuralNetworkLanguageModel,NNLM)它可以采用Word2Vec等詞嵌入方法,很好地捕獲每個詞的意義。這些方法相對之前的方法很好地表達了自然語言。6.4.1神經(jīng)網(wǎng)絡語言模型雖然Word2Vec等方法看起來十分優(yōu)秀,但是在實際工作中并沒有表現(xiàn)得十分出色。這是為什么呢?主要就是一詞多義的問題。6.4.2一詞多義如圖沿著這個思路,我們可以得到ELMo,即EmbeddingfromLanguageModels。ELMo可以在實際使用中根據(jù)上下文動態(tài)調(diào)整詞的向量表示(即語義)。6.4.2一詞多義ELMo使用LSTM提取特征,那么什么是提取特征?LSTM又是什么呢?語言數(shù)字化為向量之后怎么用呢?所有向量作為特征輸入某個模型嗎?特征提取就像在圖像識別中,我們很難將成千上萬的向量輸入模型中直接運算,而是想要提取出特征,然后將這些特征作為后面模型的輸入。RNN特征提取ConvolutionalNeuralNetworks,CNN特征提取每一個輸出不僅與當前輸入有關(guān),還和前面的輸出有關(guān)。長短期記憶網(wǎng)絡LSTM一種特殊的RNN網(wǎng)絡,長短期記憶網(wǎng)絡(LongShortTermMemorynetworks,LSTM)不僅僅能記住附近有什么詞,還能夠記住較遠的詞,但是長句不理想,并行計算也不好Transformer它是谷歌在2017年做機器翻譯任務的“Attentionisallyouneed”論文中提出的。其中使用了Attention,即注意力機制。這就解決了LSTM的處理長句方面不太理想和并行計算能力有限這兩個問題。2018年出現(xiàn)的BERT(BidirectionalEncoderRepresentationsfromTransformers)即在ELMo和Transformer基礎(chǔ)上,進一步提高了自然語言處理(NLP)在各個任務中的表現(xiàn)。本章小結(jié)—6.5—本章介紹了不使用神經(jīng)網(wǎng)絡的傳統(tǒng)的方法進行自然語言處理。重點是理解自然語言處理的數(shù)字化方法,了解神經(jīng)網(wǎng)絡語言模型的意義。通過使用“橙現(xiàn)智能”軟件,讀者可以完成語句的分詞等基本任務,并理解在分詞基礎(chǔ)上可以進行更深入的分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年可調(diào)控輥型四輥液壓軋機合作協(xié)議書
- 2022-2023學年廣西玉林市容縣四年級(上)期末數(shù)學試卷
- 新譯林六年級英語上冊教案(全冊)
- 2025年臨時工協(xié)議常用版(2篇)
- 2025年二手數(shù)控機床買賣合同(2篇)
- 2025年五年級下冊語文教學工作總結(jié)樣本(3篇)
- 2025年人事代理員工勞動合同常用版(4篇)
- 2025年倉儲運輸合同標準版本(4篇)
- 2025年互聯(lián)網(wǎng)技術(shù)服務合同樣本(三篇)
- 專題01 集合、邏輯用語與復數(shù)(解析版)
- 2024年公務員考試題庫附答案【完整版】
- 關(guān)于闖紅燈的調(diào)查報告
- T-GDWCA 0019-2018 輻照工藝操作規(guī)范
- 決策與博弈論課件
- 為什么偉大不能被計劃
- 精神障礙患者的社交技巧訓練
- 司機考核管理制度
- 重慶八中2024屆高三12月高考適應性月考卷(四) 語文試卷(含答案)
- 出差報銷單-中英對照版
- 電流互感器試驗報告
- 蔣中一動態(tài)最優(yōu)化基礎(chǔ)
評論
0/150
提交評論