單元6:文本向量化1(理論)_第1頁(yè)
單元6:文本向量化1(理論)_第2頁(yè)
單元6:文本向量化1(理論)_第3頁(yè)
單元6:文本向量化1(理論)_第4頁(yè)
單元6:文本向量化1(理論)_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Python文本與語(yǔ)音應(yīng)用設(shè)計(jì)文本向量化文本向量化單元66.26.1實(shí)戰(zhàn)案例--文本向量化文本向量化知識(shí)目標(biāo)掌握文本向量化的方法,對(duì)其原理有詳細(xì)的了解;了解Word2vec的訓(xùn)練方法,以及其兩個(gè)基本模型:CBOW模型和Skip-gram模型;技能目標(biāo)安裝Gensim模塊;實(shí)現(xiàn)文本向量化;掌握詞向量的使用方法。6.1文本向量化6.1.1one-hot編碼6.16.1.1one-hot編碼one-hot編碼(獨(dú)熱編碼)是特征工程中最常用的方法之一,是最簡(jiǎn)單的詞向量化方法。圖6-1語(yǔ)料庫(kù)舉例:

當(dāng)給定10000個(gè)單詞的詞匯表,為每個(gè)單詞分配一個(gè)索引,例如black的索引為2409,那么將black表示為一個(gè)10000維的向量[0,…,0,1,0…,0],其中1位于第2409個(gè)位置,其余位置均為0,如圖6-1所示。6.16.1.1one-hot編碼(2)無(wú)法計(jì)算詞與詞之間的相似性。(1)隨著語(yǔ)料庫(kù)詞語(yǔ)的增加,詞向量的維度高且稀疏。如果語(yǔ)料庫(kù)中包含10000個(gè)單詞,那么每個(gè)詞語(yǔ)都需要使用10000維的向量來(lái)表示,也就是說(shuō)除了當(dāng)前詞語(yǔ)位置為1,其余位置均為0,這種方法得到的詞向量是高維且稀疏的。缺點(diǎn):6.1.2詞袋6.16.1.2詞袋詞袋(BagOfWord)模型是最早的以詞語(yǔ)為基本處理單元的文本向量化方法。在使用獨(dú)熱編碼得到詞向量后,將文本中出現(xiàn)的每個(gè)單詞的詞向量進(jìn)行相加,可以得到文本的向量化表示。詞袋圖6-2詞袋6.16.1.2詞袋例如:對(duì)于“thecatisblack”,首先需要找到每個(gè)詞的索引,然后使用長(zhǎng)度為10000的向量進(jìn)行表示,將所有詞語(yǔ)的向量進(jìn)行求和,即可將文本向量化,如圖6-2所示。圖6-2詞袋6.16.1.2詞袋優(yōu)點(diǎn)簡(jiǎn)單易用缺點(diǎn)(1)矩陣維度高且稀疏。(2)只是將詞語(yǔ)符號(hào)化,不保留詞序信息,不包含任意的語(yǔ)義信息。6.1.3Word2vec6.16.1.3Word2vec該工具訓(xùn)練向量空間模型的速度較快,得到的詞向量也可以較好的表達(dá)不同詞之間的相似和類比關(guān)系。詞嵌入(WordEmbedding)是文本向量化的一種,指把一個(gè)維數(shù)為所有詞數(shù)量的高維空間向量嵌入到一個(gè)維數(shù)低得多的連續(xù)向量空間中,每個(gè)單詞或詞組被映射為實(shí)數(shù)域上的向量。CBOW(ContinuesBagofWords)模型Skip-gram模型6.16.1.3Word2vecCBOW模型是一個(gè)三層的神經(jīng)網(wǎng)絡(luò)。該模型的特點(diǎn)在于已知上下文,輸出對(duì)當(dāng)前單詞的預(yù)測(cè),且上下文所有的詞對(duì)當(dāng)前詞語(yǔ)出現(xiàn)的概率的影響的權(quán)重是一樣的。(一)CBOW圖6-3CBOW模型6.16.1.3Word2vecCBOW模型具體的計(jì)算方式如圖6-4所示,其輸入為上下文的one-hot向量,其中語(yǔ)料庫(kù)詞語(yǔ)數(shù)量為V,上下文單詞個(gè)數(shù)為C,取上下文各詞的詞向量的平均值作為輸入,輸入權(quán)重矩陣W和輸入相乘得到隱藏層,再將得到的矩陣與輸出的權(quán)重矩陣相乘,得到一個(gè)列向量。在最后一層加入softmax,將向量轉(zhuǎn)化為概率輸出。該向量中概率最大的單詞對(duì)應(yīng)的索引就是預(yù)測(cè)的中間詞。(一)CBOW6.16.1.3Word2vecSkip-gram模型與CBOW模型正好相反,該模型的特點(diǎn)在于根據(jù)當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)上下文概率。輸入為從目標(biāo)詞的上下文選擇一個(gè)詞,將其詞向量組成上下文的表示,其模型結(jié)構(gòu)如圖6-5所示。(二)Skip-gram模型圖6-5Skip-gram模型單元小結(jié)單元小結(jié)本單元主要介紹了文本向量

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論