單詞和短語(yǔ)的分布式表示和他們的組合性_第1頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第2頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第3頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第4頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、單詞和短語(yǔ)的分布式表示和他們的組合性文摘最近推出的Skip-gram模型是一種有效的方法來(lái)學(xué)習(xí)高品質(zhì)的分布式向量表 示,它捕捉了大量num-ber精確的語(yǔ)法和語(yǔ)義詞的關(guān)系和方法。在本文中我們提 出幾個(gè)擴(kuò)展,提高質(zhì)量的向量和訓(xùn)練速度。 通過(guò)頻繁的二次抽樣,使我們的學(xué)習(xí) 得到顯著加速同時(shí)也學(xué)更多的定期字表示。我們還描述了一個(gè)簡(jiǎn)單的 alterna-tive 層次,softmax稱為負(fù)采樣。詞表示有著特定的局限性,他們無(wú)法代表習(xí)慣用語(yǔ)。例如,“加拿大”和“空 氣”不能容易地組合以獲得“加拿大航空公司,通過(guò)這個(gè)例子中,我們提出了用于查找文本短語(yǔ)的簡(jiǎn)單方法,這個(gè)便使得學(xué)習(xí)良好的向量表示和為數(shù)百萬(wàn)短語(yǔ)成

2、為可能。1引言在向量空間中分布表示的單詞可以幫助學(xué)習(xí)算法更好的實(shí)現(xiàn)在自然語(yǔ)言處理 任務(wù)分組中相似的單詞。最早的一個(gè)使用字表示的歷史可以追溯到1986年,源自于Rumelhart,Hinton 和Williams 13。這個(gè)想法已經(jīng)被應(yīng)用到統(tǒng)計(jì)語(yǔ)言獲 得相當(dāng)大的成功。后續(xù)工作包括應(yīng)用自動(dòng)語(yǔ)音識(shí)別、機(jī)器翻譯14 7和廣泛的自然語(yǔ)言處理的任務(wù)2, 20, 15, 3, 18, 19, 9。最近,Mikolov等人引入了一種叫Skip-gram模型,是一種有效的從大量的非結(jié) 構(gòu)化的文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量的向量表示單詞的方法。 不同于大多數(shù)以前使用的 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)單詞載體,在 Skip-gram模型中

3、(見(jiàn)圖1)并不涉及稠密矩陣 乘法。這使得訓(xùn)練效率極高:一個(gè)優(yōu)化的單價(jià)可以實(shí)現(xiàn)每天訓(xùn)練超過(guò) 1000億人。這個(gè)詞表示計(jì)算使用神經(jīng)網(wǎng)絡(luò)非常有趣,因?yàn)閷W(xué)到的向量進(jìn)行明確編碼和遵 循許多語(yǔ)言規(guī)律和模式。有點(diǎn)令人驚訝的是,許多這些模式可以表示成線性的翻 譯。舉例來(lái)說(shuō),一個(gè)向量計(jì)算的結(jié)果VEC(“馬德里”)-VEC (“西班牙”) + VEC( “法國(guó)”)是不是任何其他文字更貼近 VEC( “巴黎”)。圖1:Skip-gram 模型架構(gòu)。培訓(xùn)目標(biāo)是學(xué)習(xí)單詞向量表示擅長(zhǎng)預(yù)測(cè)附近的單?詞。在本文中,我們提出skip-gram模型的幾個(gè)擴(kuò)展。我們表明,二次抽樣期間可 以顯著加速訓(xùn)練頻繁出現(xiàn)的詞匯(約 2倍-10

4、倍),以及提高了頻率較低單詞 表述的準(zhǔn)確性。此外,我們提出了一個(gè)簡(jiǎn)單的噪聲對(duì)比估算的變量(NCESOFTMAX4skip-gram模型導(dǎo)致更快的培訓(xùn)和頻繁出現(xiàn)的詞匯更好的向量表示, 分層相比于這個(gè)更復(fù)雜8。受限于詞表示他們無(wú)法使慣用短語(yǔ)成分個(gè)別單詞。例如,“波士頓環(huán)球報(bào)”是 一個(gè)報(bào)紙,所以它不是一個(gè)自然的組合的含義“波士頓”和“全球”。因此,使用向量repre-sent整個(gè)短語(yǔ)比Skip-gram模型表達(dá)得多。其他技術(shù),主要在的句 子通過(guò)組合這個(gè)詞向量,如遞歸來(lái)表示句子2的含義15,也將受益于使用短語(yǔ) 向量代替這個(gè)詞向量。從文字?jǐn)U展為基礎(chǔ),以基于短語(yǔ)的模型比較簡(jiǎn)單。首先我們確定一個(gè)大的采用 數(shù)

5、據(jù)驅(qū)動(dòng)的方法短語(yǔ)號(hào)碼,然后我們對(duì)待短語(yǔ)作為單獨(dú)的標(biāo)記。 在培訓(xùn)期間。為 了評(píng)估這句話向量質(zhì)量,我們開(kāi)發(fā)了一個(gè)用于類比同時(shí)包含單詞和短語(yǔ)推理任務(wù) 的測(cè)試器。從我們的測(cè)試中看到一個(gè)典型的比喻是對(duì)“蒙特利爾”:“蒙特利爾加拿大人”:“多倫多”:“多倫多楓葉”。如果最近表示它會(huì)被認(rèn)為是已經(jīng)正 確回答,以VEC( “蒙特利爾加拿大人”)-VEC (“蒙特利爾”)+VEC(“多 倫多”)VEC( “多倫多楓葉”)。最后,我們描述了跳過(guò)-gram模型的另一個(gè)有趣的特性。我們發(fā)現(xiàn),簡(jiǎn)單向量 加法往往能產(chǎn)生有意義的結(jié)果。例如,VEC(“俄羅斯”)+ VEC(“河”)是接近VEC(“伏爾加河”),和VEC(“德國(guó)

6、”)+ VEC(“資本”)接近VEC(“柏 林”)。這個(gè)組合性暗示的語(yǔ)言理解非常顯而易見(jiàn)可以通過(guò)獲得使用上的字向 量表示基本的數(shù)學(xué)運(yùn)算。2 Skip-gram 模型skip-gram模型的訓(xùn)練目標(biāo)用字表示是獲取在一個(gè)句子或文檔周圍的的用詞。更正式地說(shuō),由于序列訓(xùn)練單詞 w1, W2 W3。,WT skip-gram模型的目標(biāo)是最大化的平均數(shù)概率。1 TT 二 1 log p(wj | wt)t呂上蘭,j -0其中c是訓(xùn)練上下文(其可以是中心單詞重量的函數(shù))的大小。在訓(xùn)練時(shí)間為代價(jià)的前提下,更多的訓(xùn)練示例并因此較大C結(jié)果可導(dǎo)致更高的精度?;維kip-gram 公式定義了 p(wt + j |

7、wt)將要使用softmax函數(shù):Tp(wo|wt)二(2)exp(vw。一 VwJ冗呂 exp(vw vwt)其中,vw和vw是“輸入”和“輸出”向量表示, W是數(shù)在詞匯。這種提取的 方法是不切實(shí)際的,因?yàn)橛?jì)算成本和 ? logP (WO| WD是成正比的,這往往是(105-107 項(xiàng))。2.1 Softmax 分層SOFTMA的計(jì)算效率近似于分層SOFTMAX神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型最早是由莫蘭和 Bengio12提出。該主要優(yōu)點(diǎn)是代替在神經(jīng)網(wǎng)絡(luò)中評(píng)估 W的輸出節(jié)點(diǎn),以獲得概 率分布,則需要評(píng)估僅約LOG2(W的節(jié)點(diǎn)。分層SOFTMA使用輸出層的二進(jìn)制樹(shù)表示用 W字作為其葉子和,對(duì)于每個(gè)節(jié)點(diǎn), 明

8、確地表示它的子節(jié)點(diǎn)的相對(duì)概率。這些定義分配概率的話便可以隨機(jī)游走。更精確地說(shuō),每一個(gè)字,我們也可以從樹(shù)的根的適當(dāng)路徑到達(dá)。設(shè)n (重量, j )的是從根為w的路徑上的第j個(gè)節(jié)點(diǎn),并設(shè)L (w)的是該路徑的長(zhǎng)度,因此 n (重量,1)=根和n (W L(W)=瓦特此外,對(duì)于任何內(nèi)部節(jié)點(diǎn)n,讓通道(n) 是n的任意的固定子和如果x為真,否則返回-1讓X為1。然后分層SOFTMAX 限定P( WO| W)如下:L(w)P(W|W|)=:二(Lh(w, j 1)=ch(n(w, j)丨 Tn(w,j)- w,i)j(3)在(T (x)= 1 /(1 + exp( -x)。它可以證實(shí)這意味著成本計(jì)算lo

9、gp(我們| wI)和? Iogp(我們| wI)L成正比(我們),平均值不大于 W也不像的 標(biāo)準(zhǔn)softmax方法和 Skip-gram 分配兩個(gè)表示 vw每個(gè)單詞和 v w w,層次 softmax配方對(duì)每個(gè)詞都有一個(gè)表示 vw和一個(gè)表示vn為每個(gè)內(nèi)部節(jié)點(diǎn)n的二 叉樹(shù)。由于分級(jí)SOFTMA使用的樹(shù)結(jié)構(gòu)對(duì)性能有很大影響,所以Mnih和辛頓探索了許多方法用于構(gòu)造的樹(shù)結(jié)構(gòu)并同時(shí)在訓(xùn)練時(shí)間的效果和所產(chǎn)生的模型精度的方 法10。在我們的工作中,我們使用二進(jìn)制哈夫曼樹(shù),因?yàn)樗軌蚍峙涠檀a而 導(dǎo)致快速訓(xùn)練。在此之前,利用分組的話可以通過(guò)頻率工作以及用于基于神經(jīng)網(wǎng) 絡(luò)的語(yǔ)言模型把一個(gè)非常簡(jiǎn)單的加速技術(shù)放

10、到到一起5,8。2.2負(fù)抽樣分層SOFTMA的一種替代是噪聲對(duì)比估計(jì)模型(NCE,這是由古特曼和許韋 里寧4引入并通過(guò)Mnih和德施加到語(yǔ)言模型11.NCE假定,一個(gè)好的模型應(yīng) 該能夠從區(qū)分?jǐn)?shù)據(jù)邏輯回歸方式的噪音。這有點(diǎn)像由Collobert和韋斯頓2使用的損耗誰(shuí)由排名高于噪聲的數(shù)據(jù)訓(xùn)練的模型。指標(biāo)可以顯示softmax的對(duì)數(shù)概率最大化,Skip-gram 模型只關(guān)心學(xué)習(xí)質(zhì)量的 向量表示,所以只要我們利用定義消極抽樣(否定)的目標(biāo)可以簡(jiǎn)化指標(biāo)向量表示 保留它們的質(zhì)量Tk丁log 二(v wo 一 vwi)!:wiL Pn (w) log 二(-v wi - vwi)7(4)利用主成分分析法(P

11、CA)和資本向量投影的國(guó)家Chinat7_trt(eyPolandGfiman Franceliaiy-一”卄“一,Moscow Ankara TokyoWarsawx Berfn ParisGreeceSpairxk unions Aom-1.5 - PortugalMadrid) Vice NairnVietrLamcseearner Lutihansa flag carrier .uflhaniXblya River upfiver RussiaJulietW Binoche Vuncisa 曲radiMCharloUe Gainboui Cecile De表5:向量組合使用elemen

12、t-wise加法。四個(gè)載體中被標(biāo)記的最近的兩個(gè)最好 用 Skip-gram 模型。整個(gè)句子的上下文中,為了最大限度地提高該短語(yǔ)類比任務(wù)的準(zhǔn)確性,我們提高了訓(xùn)練數(shù)據(jù)的數(shù)量通過(guò)使用數(shù)據(jù)集,約330億字。在全文中我們使用分層SOFTMA模型,這導(dǎo)致模型的精度達(dá)到72%。這樣的話我們實(shí)現(xiàn)了低精度 66%減 少訓(xùn)練數(shù)據(jù)集的大小為6b,這表明大量的訓(xùn)練數(shù)據(jù)是非常重要的。為了進(jìn)一步深入了解不同型號(hào)模型表現(xiàn)的不同,我們便對(duì)相鄰的短語(yǔ)模型做手工檢查。在表4中,我們展示出了一個(gè)樣品的比較。與之前的結(jié)果看來(lái),似乎最 好短語(yǔ)表示是短語(yǔ)學(xué)模型與層次 softmax和二次抽樣。5附加的語(yǔ)意組合性我們表明,單詞和短語(yǔ)的線性

13、結(jié)構(gòu)表示由Skip-gram模型展示,使得它可以用 簡(jiǎn)單的向量執(zhí)行精確的類比推理運(yùn)算。有趣的是,我們發(fā)現(xiàn),Skip-gram模型表現(xiàn)出另一種線性的結(jié)構(gòu),使得它可以通過(guò)一個(gè)個(gè)元素的加法并且有意義的結(jié)合其 他詞語(yǔ)。這種現(xiàn)象在表5中示出。向量的加和性可以通過(guò)檢查培訓(xùn)目標(biāo)來(lái)解釋。這個(gè)詞向量的線性關(guān)系由 softmax非線性輸入。因?yàn)檫@個(gè)詞向量,載體可以被看作是代表其中出現(xiàn)的單詞 在上下文的分布。這些值相關(guān)的對(duì)數(shù)由輸出層計(jì)算概率, 所以兩條字向量涉及到 這兩個(gè)方面的分布產(chǎn)品。該產(chǎn)品在這里工作內(nèi)容及功能:?jiǎn)卧~由這兩個(gè)詞向量被 分配,高的將具有高概率,以及換言之將有低概率。因此,如果“伏爾加河”在 同一個(gè)句

14、子頻頻出現(xiàn),上面就會(huì)寫著“俄羅斯”和“河”,這兩個(gè)詞向量的總和 將導(dǎo)致這個(gè)詞向量的意思,接近“伏爾加河”詞向量。6發(fā)布詞表示的比較許多工作者曾經(jīng)研究基于神經(jīng)網(wǎng)絡(luò)的表示方法,其中最知名的作者有Collobert、Weston2、Turian 17 、Mnih 和 Hinton 10等人。我們可以從 WEB中下載他們的信息。Mikolov等人8已經(jīng)評(píng)估了這些信息,其中Skip-gram模型可以實(shí)現(xiàn)最佳性能,并且可以獲得巨大的利潤(rùn)Modfl (munmg umcFninjijuuCollDibrrt (50d(2 months)conycrs. lyhbock keenepljucn dzcTzhi

15、niikyreiki kohofta luraLechecKcakrdkxamunbdic-iilc accede rearmTuriani2D0d| (few weeks.|McCarthy AhiafiCcu/sinsJewell ArzuOvirtzguniirc emotion impunity-(7 JayMPttllWM HarlangPanrifF Pinochet Hodioiwvmofikeys JewsMavericlU pUmung hmiatcdSkip-Phrase (LOOOd. J dayRedmond Wash.Redrmnd Washington Micros

16、oftVaclii、Hcl prcsidchE Mlav Havel VfchiM: Rexolulionnmja iTiariil arU 譏ur 由 mamhipspra- paint gralitii taggerscap-itulaiion capituUlcd capilmlalLnf表6:在大家所認(rèn)知的模型和skip-gram模型中擁有300億個(gè)被使用過(guò)的子。 空單兀的話意味著詞不是詞匯表中。給予更多的了解學(xué)習(xí)質(zhì)量的差別向量,我們提供實(shí)證比較,顯示最近的鄰居罕 見(jiàn)字在表6所示。這些例子表明,大Skip-gram模型訓(xùn)練大語(yǔ)料庫(kù)明顯優(yōu)于其他 模型的質(zhì)量表示。這可以部分歸結(jié)于這個(gè) mo

17、delhas培訓(xùn)約300億字,大概是兩到 三個(gè)數(shù)量級(jí)中使用更多的數(shù)據(jù)比典型的大小之前的工作。有趣的是,盡管訓(xùn)練集大得多,訓(xùn)練時(shí)間Skip-gram模型的只是一小部分所需的時(shí)間復(fù)雜度先前的模型 架構(gòu)。7結(jié)論這項(xiàng)工作有幾個(gè)重要的貢獻(xiàn)。我們展示如何訓(xùn)練單詞和短語(yǔ)與 Skip-gram模型 的分布式表示和證明這些表示線性結(jié)構(gòu),使精確的類比推理成為可能。本文介紹 的技術(shù)也可以用于訓(xùn)練連續(xù) bag-of-words模型中引入8。在我們成功的培訓(xùn)情況下所發(fā)布的機(jī)型數(shù)量比以前發(fā)布的機(jī)型數(shù)量多,這要?dú)w功于高效的計(jì)算機(jī)模型構(gòu)架。這導(dǎo)致單詞和短語(yǔ)陳述的質(zhì)量得到了大的改善,尤 其的對(duì)罕見(jiàn)的實(shí)體,我們還發(fā)現(xiàn),頻繁的二次抽樣可以更好的表示常見(jiàn)的單詞。 我們論文的另一個(gè)貢獻(xiàn)是消極的抽樣算法,這是一個(gè)非常簡(jiǎn)單的訓(xùn)練方法。就是要學(xué)會(huì)準(zhǔn)確的表示頻繁出現(xiàn)的單詞。訓(xùn)練算法

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論