深度學(xué)習(xí)之word2v1.ppt

上傳人：j*** IP屬地：四川上傳時(shí)間：2019-07-15 格式：PPT 頁(yè)數(shù)：22 大小：1.92MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)之word2vec,學(xué)習(xí)、分享與交流報(bào)告人：黃宇鵬,目錄,基本概念模型與方法實(shí)戰(zhàn)與應(yīng)用,詞向量,自然語(yǔ)言中的詞語(yǔ)在機(jī)器學(xué)習(xí)中表示符號(hào) One-hot Representation 例如： “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實(shí)現(xiàn)時(shí)就可以用0,1,2,3,.來表示詞語(yǔ)進(jìn)行計(jì)算，這樣“話筒”就為3，“麥克”為8. 存在兩個(gè)問題維度比較大,尤其是用于 Deep Learning 的一些算法時(shí) 詞匯鴻溝：任意兩個(gè)詞之間都是孤立的，不能體現(xiàn)詞和詞之間的關(guān)系,詞向量,Distributional Representation 詞表示為： 0.792, 0.177, 0.107, 0.109, 0.542, .，常見維度50或者100 解決“詞匯鴻溝”問題可以通過計(jì)算向量之間的距離（歐式距離、余弦距離等）來體現(xiàn)詞與詞的相似性如何訓(xùn)練這樣的詞向量沒有直接的模型可訓(xùn)練得到可通過訓(xùn)練語(yǔ)言模型的同時(shí)，得到詞向量,語(yǔ)言模型,判斷一句話是不是正常人說出來的，用數(shù)學(xué)符號(hào)描述為給定一個(gè)字符串“w1,w2,.,wt“,計(jì)算它是自然語(yǔ)言的概率，一個(gè)很簡(jiǎn)單的推論是例如，有個(gè)句子“大家,喜歡,吃,蘋果“ P(大家，喜歡，吃，蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(蘋果|大家,喜歡,吃) 簡(jiǎn)單表示為計(jì)算問題,語(yǔ)言模型,現(xiàn)有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語(yǔ)義強(qiáng)化 .,word2vec原理,兩種模型，兩種方法,CBOW模型+Hierarchical Softmax方法,CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當(dāng)前詞語(yǔ)（向量） w(t-2),w(t-1),w(t+1),w(t+2):當(dāng)前詞語(yǔ)的上下文 SUM:上下文的累加和,CBOW模型+Hierarchical Softmax方法（續(xù)）,CBOW模型+Hierarchical Softmax方法（續(xù)）,為什么建哈夫曼樹？,非葉子結(jié)點(diǎn) 為L(zhǎng)R分類器,葉子結(jié)點(diǎn)對(duì)應(yīng) 詞典中的一個(gè)詞,目標(biāo)：,CBOW模型+Hierarchical Softmax方法（續(xù)）,句子：我,喜歡,觀看,巴西,足球,世界杯 w=足球,CBOW模型+Hierarchical Softmax方法（續(xù)）,正類概率: 負(fù)類概率: “足球“ 葉子節(jié)點(diǎn)經(jīng)過4次二分類，每次分類結(jié)果對(duì)應(yīng)的概率為由Context(“足球“)預(yù)測(cè)“足球“出現(xiàn)的概率,CBOW模型+Hierarchical Softmax方法（續(xù)）,對(duì)于詞典中的每個(gè)詞w有，結(jié)點(diǎn)個(gè)數(shù) 其中，或者表示為對(duì)于由S個(gè)句子組成的語(yǔ)料庫(kù)C有取對(duì)數(shù)似然函數(shù),參數(shù)1,參數(shù)2,CBOW模型+Hierarchical Softmax方法（續(xù)）,梯度下降法進(jìn)行求解令 f(w,j)關(guān)于和的梯度分別為更新公式,word2vec實(shí)戰(zhàn)（一）,訓(xùn)練數(shù)據(jù)集：經(jīng)過分詞后的新聞數(shù)據(jù)，大小184MB 查看“中國(guó)“，“釣魚島“，“旅游“，“蘋果“幾個(gè)詞語(yǔ)的相似詞語(yǔ)如下所示,word2vec實(shí)戰(zhàn)（一）,向量加減法 “中國(guó)+北京-日本“，“中國(guó)+北京-法國(guó)“，“家庭+孩子-學(xué)?！?word2vec應(yīng)用（一）,機(jī)器翻譯語(yǔ)言詞語(yǔ)的關(guān)系集合被表征為向量集合向量空間內(nèi)，不同語(yǔ)言享有許多共性實(shí)現(xiàn)一個(gè)向量空間到另一個(gè)向量空間的映射和轉(zhuǎn)換圖為英語(yǔ)和西班語(yǔ)的五個(gè)詞在向量空間中的位置（已經(jīng)過降維）對(duì)英語(yǔ)和西班語(yǔ)之間的翻譯準(zhǔn)確率高達(dá)90%,word2vec應(yīng)用（三）,給廣告主推薦用戶 T媒體網(wǎng)站用戶瀏覽網(wǎng)頁(yè)的記錄 pageH是匹克體育用品公司在T上的官網(wǎng) page2,page3,page5和pageH是比較相似的頁(yè)面可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個(gè)幾個(gè)頁(yè)面的用戶進(jìn)行廣告投放,word2vec應(yīng)用（三）,相似的頁(yè)面計(jì)算過程,word2vec應(yīng)用（三）續(xù),對(duì)ctr預(yù)估模型的幫助新廣告上線存在冷啟動(dòng)問題通過比較相似的廣告的點(diǎn)擊率來預(yù)估這個(gè)廣告的點(diǎn)擊率由上個(gè)例子可得到每個(gè)頁(yè)面的向量，然后通過Kmeans進(jìn)行聚類，得到比較相似頁(yè)面的簇？向頁(yè)面向量添加其它的特征，例如廣告主所屬的行業(yè)和地域等假設(shè)頁(yè)面p1的向量是(0.3,-0.5,0.1），加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0)，1和0分別表示行業(yè)和地域的特征值這樣得到的聚類效果相對(duì)更好,參考文獻(xiàn),1 /mytestmy/article/details/26969149 深度學(xué)習(xí)word2vec筆記之算法篇 2 /itplus/article/details/37969979 word2vec 中的數(shù)學(xué)原理詳解（四）基于 Hierarchical Softmax 的模型 3 /question/21661274/answer/19331979 楊超在知乎上的問答Word2Vec的一些理解 4 /?p=156 hisen博客的博文 5 /mytestmy/article/details/38612907 深度學(xué)習(xí)word2vec筆記之應(yīng)用篇 6 /?p=915 Deep Learning實(shí)戰(zhàn)之word2vec，網(wǎng)易有道的pdf 7 /lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio. 9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. 10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent. 11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig. 12 Efficient Estimation of Word Representat

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)之word2v1.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

深度學(xué)習(xí)之word2v1.ppt

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔