基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量_第1頁(yè)
基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量_第2頁(yè)
基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量_第3頁(yè)
基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量_第4頁(yè)
基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量 張春越 哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室提綱 研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作研究動(dòng)機(jī) 詞對(duì)齊是當(dāng)前主流機(jī)器翻譯技術(shù)的基礎(chǔ) 目前廣泛使用的是Giza+實(shí)現(xiàn)的IBM Model4 對(duì)齊模型 近年來(lái),研究者也相繼提出不少其他的詞對(duì)齊方法 不同的詞對(duì)齊工具并沒(méi)有絕對(duì)意義上的優(yōu)劣之分 目前學(xué)術(shù)界對(duì)詞對(duì)齊質(zhì)量和機(jī)器翻譯性能之間的關(guān)系還沒(méi)有一個(gè)明確的共識(shí) 本文切入點(diǎn) 給定兩種差異較大的詞對(duì)齊工具 ,在同一語(yǔ)料上進(jìn)行詞對(duì)齊獲取 利用這兩組不同詞對(duì)齊的語(yǔ)料共同訓(xùn)練機(jī)器翻譯模型,是否可以提高機(jī)器翻譯性能?提綱 研究動(dòng)機(jī)

2、兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作兩種詞對(duì)齊工具 IBM詞對(duì)齊模型 GIZA+ 兩個(gè)方向 “grow-diag-final” 合并為 n-to-m對(duì)齊 HIT-MITLAB詞對(duì)齊模型 統(tǒng)計(jì)和詞典相結(jié)合 貪心算法實(shí)現(xiàn) SSMT07語(yǔ)料上對(duì)齊結(jié)果差異度分析 Step1: 分別進(jìn)行GIZA+詞對(duì)齊(GIZA+雙向一對(duì)多詞對(duì)齊,然后采用“grow-diag-final”啟發(fā)式策略獲得雙向詞對(duì)齊,下文用 “G” 代稱(chēng))和HIT-MITLAB詞對(duì)齊(下文用 “H” 代稱(chēng)); Step2: 對(duì)兩組詞對(duì)齊結(jié)果計(jì)算其并集(HG)、交集(HG)、差集(H-G, G-H);

3、Step3: 合并兩組詞對(duì)齊語(yǔ)料成為合并語(yǔ)料; Step4: 基于合并語(yǔ)料獲取詞匯概率表(lex.f2n, lex.n2f) ; Step5: 根據(jù)詞匯概率表lex.f2n,lex.n2f,計(jì)算各個(gè)集合的詞對(duì)齊關(guān)系的平均翻譯分值。 Step6: 統(tǒng)計(jì)各種數(shù)據(jù),分析兩種詞對(duì)齊信息是否具有明顯差異。H、G詞對(duì)齊集合統(tǒng)計(jì)詞對(duì)齊集合統(tǒng)計(jì) GIZA+獲取了超過(guò)1千萬(wàn)的詞對(duì)齊個(gè)數(shù) 而HIT-MITLAB只獲得7百多萬(wàn)詞對(duì)齊個(gè)數(shù) H和G相同的詞對(duì)齊數(shù)只占G本身的44.8%,占H本身67% 其他數(shù)據(jù)同樣顯示出,兩者的差異非常明顯 詞對(duì)齊集合 H G HG HG H-G G-H詞對(duì)齊數(shù)7,089,06110,6

4、75,7404,787,38112,977,4202,301,6805,888,359各個(gè)集合的詞對(duì)齊翻譯平均分?jǐn)?shù)(1) 假設(shè)S為一個(gè)詞對(duì)齊集合,(f,e)為任意一個(gè)詞對(duì)齊,Plex_f2n和Plex_n2f為詞匯翻譯概率表,則有 2(, )f2n( |)AvgScore(S)=( )fnf eSPlexe fsizeof S2(, )n2f(| )AvgScore(S)=( )nff eSPlexf esizeof S各個(gè)集合的詞對(duì)齊翻譯平均分?jǐn)?shù)(2) 兩個(gè)均分都滿足: HG H G HG G-HH-G 融合兩者有希望獲得性能上的改善 詞對(duì)齊集合 H G HG HG H-G G-H0.227

5、4340.1940500.3122550.1686800.0510110.0979450.2574960.2126170.3513930.1859390.0621960.099780f2nAvgScore (S)n2fAvgScore(S) H、G詞對(duì)齊平均詞翻譯概率統(tǒng)計(jì)提綱 研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作詞對(duì)齊結(jié)果融合策略 IBM詞對(duì)齊模型實(shí)驗(yàn)(G) HIT-MITLAB詞對(duì)齊模型實(shí)驗(yàn)(H) 數(shù)據(jù)融合實(shí)驗(yàn)(HGdc) 訓(xùn)練語(yǔ)料: 將H與G兩個(gè)訓(xùn)練語(yǔ)料直接合并 模型融合實(shí)驗(yàn)(HGmc) 將在H和G兩組數(shù)據(jù)上分別訓(xùn)練得到的模型直接合并 提綱

6、研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作實(shí)驗(yàn)設(shè)置 實(shí)驗(yàn)平臺(tái) Moses 訓(xùn)練語(yǔ)料 SSMT07-811812句 開(kāi)發(fā)集 SSMT07漢英開(kāi)發(fā)集 測(cè)試集 SSMT07漢英測(cè)試集對(duì)比實(shí)驗(yàn)結(jié)果 HGdc比G提高了近0.7個(gè)BLEU值 減少了未登錄詞(UNK)的數(shù)目 注:表中的PP代表后處理(Post Processing),包括去掉 UNK,以及一些標(biāo)點(diǎn)的前向粘結(jié),如 It s - its , end . - end.。.H、G、HGdc、HGmc實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)BLEUBLEU after PPUNK數(shù)H18.2418.84463G

7、19.6120.15477HGdc20.3420.83363HGmc19.3919.94363不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì)不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì) 這個(gè)短語(yǔ)數(shù)和UNK的個(gè)數(shù)直接相關(guān) HGdc比G多出2,240個(gè) 這些短語(yǔ)使得HGdc的UNK個(gè)數(shù)比G的下降了114個(gè)各組實(shí)驗(yàn)中不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì)(用測(cè)試集進(jìn)行過(guò)濾后)詞對(duì)齊集合 HGHGdc短語(yǔ)數(shù)21,34420,13322,373例子對(duì)比Test卵磷脂卵磷脂 被 醫(yī)學(xué) 專(zhuān)家 視為 老年性 癡呆 的 克星 , 還 可 防治 動(dòng)脈 粥 樣 硬化 。G卵磷脂卵磷脂 medical experts deemed old senility , the prevent

8、ion and control of killers atherosclerotic arteries . HGdclecithin medical experts as old senility of prevention and control of , atherosclerotic arteries . 譯文對(duì)比結(jié)果HGdc短語(yǔ)表短語(yǔ)表中文短語(yǔ)英文短語(yǔ),卵磷脂lecithinB 復(fù)合體 之一,卵磷脂 的that is a constituent of lecithin 卵磷脂lecithinHGdc短語(yǔ)表G的短語(yǔ)表的短語(yǔ)表 中文短語(yǔ)英文短語(yǔ), 卵磷脂 的 一 種 要素that is a constituent of lecithin, 卵磷脂 的 一 種 要素 ;that is a constituent of lecithin ;卵磷脂 的 一 種 要素a constituent of lecithin卵磷脂 的 一 種 要素is a constituent of lecithin卵磷脂 的 一 種 要素 ;a constituent of lecithin ;卵磷脂 的 一 種

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論