已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
深度學習之word2vec,學習、分享與交流 報告人:黃宇鵬,目錄,基本概念 模型與方法 實戰(zhàn)與應用,詞向量,自然語言中的詞語在機器學習中表示符號 One-hot Representation 例如: “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實現(xiàn)時就可以用0,1,2,3,.來表示詞語進行計算,這樣“話筒”就為3,“麥克”為8. 存在兩個問題 維度比較大,尤其是用于 Deep Learning 的一些算法時 詞匯鴻溝:任意兩個詞之間都是孤立的,不能體現(xiàn)詞和詞之間的關系,詞向量,Distributional Representation 詞表示為: 0.792, 0.177, 0.107, 0.109, 0.542, .,常見維度50或者100 解決“詞匯鴻溝”問題 可以通過計算向量之間的距離(歐式距離、余弦距離等)來體現(xiàn)詞與詞的相似性 如何訓練這樣的詞向量 沒有直接的模型可訓練得到 可通過訓練語言模型的同時,得到詞向量,語言模型,判斷一句話是不是正常人說出來的,用數學符號描述為 給定一個字符串“w1,w2,.,wt“,計算它是自然語言的概率 ,一個很簡單的推論是 例如,有個句子“大家,喜歡,吃,蘋果“ P(大家,喜歡,吃,蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(蘋果|大家,喜歡,吃) 簡單表示為 計算 問題,語言模型,現(xiàn)有模型 N-gram模型 N-pos模型 . Bengio的NNLM C&W 的 SENNA M&H 的 HLBL Mikolov 的 RNNLM Huang 的語義強化 .,word2vec原理,兩種模型,兩種方法,CBOW模型+Hierarchical Softmax方法,CBOW模型 INPUT:輸入層 PROJECTION:投影層 OUTPUT:輸出層 w(t):當前詞語(向量) w(t-2),w(t-1),w(t+1),w(t+2):當前詞語的上下文 SUM:上下文的累加和,CBOW模型+Hierarchical Softmax方法(續(xù)),CBOW模型+Hierarchical Softmax方法(續(xù)),為什么建哈夫曼樹?,非葉子結點 為LR分類器,葉子結點對應 詞典中的一個詞,目標:,CBOW模型+Hierarchical Softmax方法(續(xù)),句子:我,喜歡,觀看,巴西,足球,世界杯 w=足球,CBOW模型+Hierarchical Softmax方法(續(xù)),正類概率: 負類概率: “足球“ 葉子節(jié)點經過4次二分類,每次分類結果對應的概率為 由Context(“足球“)預測“足球“出現(xiàn)的概率,CBOW模型+Hierarchical Softmax方法(續(xù)),對于詞典中的每個詞w有, 結點個數 其中, 或者表示為 對于由S個句子組成的語料庫C有 取對數似然函數,參數1,參數2,CBOW模型+Hierarchical Softmax方法(續(xù)),梯度下降法進行求解 令 f(w,j)關于 和 的梯度分別為 更新公式,word2vec實戰(zhàn)(一),訓練數據集:經過分詞后的新聞數據,大小184MB 查看“中國“,“釣魚島“,“旅游“,“蘋果“幾個詞語的相似詞語如下所示,word2vec實戰(zhàn)(一),向量加減法 “中國+北京-日本“,“中國+北京-法國“,“家庭+孩子-學?!?word2vec應用(一),機器翻譯 語言詞語的關系集合被表征為向量集合 向量空間內,不同語言享有許多共性 實現(xiàn)一個向量空間到另一個向量空間的映射和轉換 圖為英語和西班語的五個詞在向量空間中的位置(已經過降維) 對英語和西班語之間的翻譯準確率高達90%,word2vec應用(三),給廣告主推薦用戶 T媒體網站用戶瀏覽網頁的記錄 pageH是匹克體育用品公司在T上的官網 page2,page3,page5和pageH是比較相似的頁面 可給匹克體育用品公司推薦經常瀏覽page2,3,5這個幾個頁面的用戶進行廣告投放,word2vec應用(三),相似的頁面計算過程,word2vec應用(三)續(xù),對ctr預估模型的幫助 新廣告上線存在冷啟動問題 通過比較相似的廣告的點擊率來預估這個廣告的點擊率 由上個例子可得到每個頁面的向量,然后通過Kmeans進行聚類,得到比較相似頁面的簇? 向頁面向量添加其它的特征,例如廣告主所屬的行業(yè)和地域等 假設頁面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值 這樣得到的聚類效果相對更好,參考文獻,1 /mytestmy/article/details/26969149 深度學習word2vec筆記之算法篇 2 /itplus/article/details/37969979 word2vec 中的數學原理詳解(四)基于 Hierarchical Softmax 的模型 3 /question/21661274/answer/19331979 楊超在知乎上的問答Word2Vec的一些理解 4 /?p=156 hisen博客的博文 5 /mytestmy/article/details/38612907 深度學習word2vec筆記之應用篇 6 /?p=915 Deep Learning實戰(zhàn)之word2vec,網易有道的pdf 7 /lingerlanlan/article/details/38232755 word2vec源碼解析之word2vec.c 8 Hierarchical probabilistic neural network language model. Frederic Morin and Yoshua Bengio. 9 Distributed Representations of Words and Phrases and their Compositionality T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. 10 A neural probabilistic language model Y. Bengio, R. Ducharme, P. Vincent. 11 Linguistic Regularities in Continuous Space Word Representations. Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig. 12 Efficient Estimation of Word Representat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度水電安裝工程合同解除與賠償合同樣本4篇
- 2025年度智慧城市建設項目承包合同樣本4篇 - 副本
- 二零二五年度建筑工程施工圖設計承包合同4篇
- 2025年度綠色生態(tài)養(yǎng)殖項目承包實施合同3篇
- 2025年度畜牧養(yǎng)殖場蟲害防治與生物安全合同3篇
- 2025年度特色小鎮(zhèn)旅游推廣及活動策劃服務合同4篇
- 2025年度企業(yè)展廳全息投影技術應用裝修合同
- 2025年度場地建筑結構安全檢測與評估合同范本4篇
- 2025年度民間借貸合同糾紛調解授權委托書4篇
- 二零二五版集裝箱運輸破損賠償標準合同3篇
- 2024高考復習必背英語詞匯3500單詞
- 消防控制室值班服務人員培訓方案
- 《貴州旅游介紹》課件2
- 2024年中職單招(護理)專業(yè)綜合知識考試題庫(含答案)
- 無人機應用平臺實施方案
- 挪用公款還款協(xié)議書范本
- 事業(yè)單位工作人員年度考核登記表(醫(yī)生個人總結)
- 盾構隧道施工數字化與智能化系統(tǒng)集成
- 【企業(yè)盈利能力探析文獻綜述2400字】
- 2019年醫(yī)養(yǎng)結合項目商業(yè)計劃書
- 2023年店鋪工程主管年終業(yè)務工作總結
評論
0/150
提交評論