版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于詞語(yǔ)對(duì)齊融合提高統(tǒng)計(jì)機(jī)器翻譯質(zhì)量 張春越 哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室提綱 研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作研究動(dòng)機(jī) 詞對(duì)齊是當(dāng)前主流機(jī)器翻譯技術(shù)的基礎(chǔ) 目前廣泛使用的是Giza+實(shí)現(xiàn)的IBM Model4 對(duì)齊模型 近年來(lái),研究者也相繼提出不少其他的詞對(duì)齊方法 不同的詞對(duì)齊工具并沒(méi)有絕對(duì)意義上的優(yōu)劣之分 目前學(xué)術(shù)界對(duì)詞對(duì)齊質(zhì)量和機(jī)器翻譯性能之間的關(guān)系還沒(méi)有一個(gè)明確的共識(shí) 本文切入點(diǎn) 給定兩種差異較大的詞對(duì)齊工具 ,在同一語(yǔ)料上進(jìn)行詞對(duì)齊獲取 利用這兩組不同詞對(duì)齊的語(yǔ)料共同訓(xùn)練機(jī)器翻譯模型,是否可以提高機(jī)器翻譯性能?提綱 研究動(dòng)機(jī)
2、兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作兩種詞對(duì)齊工具 IBM詞對(duì)齊模型 GIZA+ 兩個(gè)方向 “grow-diag-final” 合并為 n-to-m對(duì)齊 HIT-MITLAB詞對(duì)齊模型 統(tǒng)計(jì)和詞典相結(jié)合 貪心算法實(shí)現(xiàn) SSMT07語(yǔ)料上對(duì)齊結(jié)果差異度分析 Step1: 分別進(jìn)行GIZA+詞對(duì)齊(GIZA+雙向一對(duì)多詞對(duì)齊,然后采用“grow-diag-final”啟發(fā)式策略獲得雙向詞對(duì)齊,下文用 “G” 代稱(chēng))和HIT-MITLAB詞對(duì)齊(下文用 “H” 代稱(chēng)); Step2: 對(duì)兩組詞對(duì)齊結(jié)果計(jì)算其并集(HG)、交集(HG)、差集(H-G, G-H);
3、Step3: 合并兩組詞對(duì)齊語(yǔ)料成為合并語(yǔ)料; Step4: 基于合并語(yǔ)料獲取詞匯概率表(lex.f2n, lex.n2f) ; Step5: 根據(jù)詞匯概率表lex.f2n,lex.n2f,計(jì)算各個(gè)集合的詞對(duì)齊關(guān)系的平均翻譯分值。 Step6: 統(tǒng)計(jì)各種數(shù)據(jù),分析兩種詞對(duì)齊信息是否具有明顯差異。H、G詞對(duì)齊集合統(tǒng)計(jì)詞對(duì)齊集合統(tǒng)計(jì) GIZA+獲取了超過(guò)1千萬(wàn)的詞對(duì)齊個(gè)數(shù) 而HIT-MITLAB只獲得7百多萬(wàn)詞對(duì)齊個(gè)數(shù) H和G相同的詞對(duì)齊數(shù)只占G本身的44.8%,占H本身67% 其他數(shù)據(jù)同樣顯示出,兩者的差異非常明顯 詞對(duì)齊集合 H G HG HG H-G G-H詞對(duì)齊數(shù)7,089,06110,6
4、75,7404,787,38112,977,4202,301,6805,888,359各個(gè)集合的詞對(duì)齊翻譯平均分?jǐn)?shù)(1) 假設(shè)S為一個(gè)詞對(duì)齊集合,(f,e)為任意一個(gè)詞對(duì)齊,Plex_f2n和Plex_n2f為詞匯翻譯概率表,則有 2(, )f2n( |)AvgScore(S)=( )fnf eSPlexe fsizeof S2(, )n2f(| )AvgScore(S)=( )nff eSPlexf esizeof S各個(gè)集合的詞對(duì)齊翻譯平均分?jǐn)?shù)(2) 兩個(gè)均分都滿足: HG H G HG G-HH-G 融合兩者有希望獲得性能上的改善 詞對(duì)齊集合 H G HG HG H-G G-H0.227
5、4340.1940500.3122550.1686800.0510110.0979450.2574960.2126170.3513930.1859390.0621960.099780f2nAvgScore (S)n2fAvgScore(S) H、G詞對(duì)齊平均詞翻譯概率統(tǒng)計(jì)提綱 研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作詞對(duì)齊結(jié)果融合策略 IBM詞對(duì)齊模型實(shí)驗(yàn)(G) HIT-MITLAB詞對(duì)齊模型實(shí)驗(yàn)(H) 數(shù)據(jù)融合實(shí)驗(yàn)(HGdc) 訓(xùn)練語(yǔ)料: 將H與G兩個(gè)訓(xùn)練語(yǔ)料直接合并 模型融合實(shí)驗(yàn)(HGmc) 將在H和G兩組數(shù)據(jù)上分別訓(xùn)練得到的模型直接合并 提綱
6、研究動(dòng)機(jī) 兩種詞對(duì)齊結(jié)果分析 詞對(duì)齊結(jié)果融合策略 實(shí)驗(yàn)設(shè)置與結(jié)果分析實(shí)驗(yàn)設(shè)置與結(jié)果分析 結(jié)論與未來(lái)工作實(shí)驗(yàn)設(shè)置 實(shí)驗(yàn)平臺(tái) Moses 訓(xùn)練語(yǔ)料 SSMT07-811812句 開(kāi)發(fā)集 SSMT07漢英開(kāi)發(fā)集 測(cè)試集 SSMT07漢英測(cè)試集對(duì)比實(shí)驗(yàn)結(jié)果 HGdc比G提高了近0.7個(gè)BLEU值 減少了未登錄詞(UNK)的數(shù)目 注:表中的PP代表后處理(Post Processing),包括去掉 UNK,以及一些標(biāo)點(diǎn)的前向粘結(jié),如 It s - its , end . - end.。.H、G、HGdc、HGmc實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)BLEUBLEU after PPUNK數(shù)H18.2418.84463G
7、19.6120.15477HGdc20.3420.83363HGmc19.3919.94363不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì)不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì) 這個(gè)短語(yǔ)數(shù)和UNK的個(gè)數(shù)直接相關(guān) HGdc比G多出2,240個(gè) 這些短語(yǔ)使得HGdc的UNK個(gè)數(shù)比G的下降了114個(gè)各組實(shí)驗(yàn)中不同源語(yǔ)言短語(yǔ)數(shù)統(tǒng)計(jì)(用測(cè)試集進(jìn)行過(guò)濾后)詞對(duì)齊集合 HGHGdc短語(yǔ)數(shù)21,34420,13322,373例子對(duì)比Test卵磷脂卵磷脂 被 醫(yī)學(xué) 專(zhuān)家 視為 老年性 癡呆 的 克星 , 還 可 防治 動(dòng)脈 粥 樣 硬化 。G卵磷脂卵磷脂 medical experts deemed old senility , the prevent
8、ion and control of killers atherosclerotic arteries . HGdclecithin medical experts as old senility of prevention and control of , atherosclerotic arteries . 譯文對(duì)比結(jié)果HGdc短語(yǔ)表短語(yǔ)表中文短語(yǔ)英文短語(yǔ),卵磷脂lecithinB 復(fù)合體 之一,卵磷脂 的that is a constituent of lecithin 卵磷脂lecithinHGdc短語(yǔ)表G的短語(yǔ)表的短語(yǔ)表 中文短語(yǔ)英文短語(yǔ), 卵磷脂 的 一 種 要素that is a constituent of lecithin, 卵磷脂 的 一 種 要素 ;that is a constituent of lecithin ;卵磷脂 的 一 種 要素a constituent of lecithin卵磷脂 的 一 種 要素is a constituent of lecithin卵磷脂 的 一 種 要素 ;a constituent of lecithin ;卵磷脂 的 一 種
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人住宅房產(chǎn)抵押擔(dān)保合同范本4篇
- 二零二五年度模特個(gè)人品牌授權(quán)管理合同4篇
- 2025年個(gè)人房產(chǎn)買(mǎi)賣(mài)售后服務(wù)保障合同3篇
- 2025年度個(gè)人藝術(shù)品抵押貸款展期服務(wù)合同3篇
- 2025年教室租賃及管理維護(hù)服務(wù)合同2篇
- 2025年度人工智能語(yǔ)音助手產(chǎn)品定制開(kāi)發(fā)合同范本2篇
- 拆除瀝青路面施工方案
- 2025年度二手車(chē)買(mǎi)賣(mài)合同車(chē)輛交易市場(chǎng)準(zhǔn)入及退出協(xié)議范本4篇
- 2025年電商項(xiàng)目策劃與銷(xiāo)售代理合同3篇
- 二零二五年度美團(tuán)打車(chē)智能停車(chē)服務(wù)合作協(xié)議4篇
- 餐飲業(yè)環(huán)境保護(hù)管理方案
- 人教版【初中數(shù)學(xué)】知識(shí)點(diǎn)總結(jié)-全面+九年級(jí)上冊(cè)數(shù)學(xué)全冊(cè)教案
- 食品安全分享
- 礦山機(jī)械設(shè)備安全管理制度
- 計(jì)算機(jī)等級(jí)考試二級(jí)WPS Office高級(jí)應(yīng)用與設(shè)計(jì)試題及答案指導(dǎo)(2025年)
- 造價(jià)框架協(xié)議合同范例
- 糖尿病肢端壞疽
- 心衰患者的個(gè)案護(hù)理
- 醫(yī)護(hù)人員禮儀培訓(xùn)
- 無(wú)人機(jī)飛行安全協(xié)議書(shū)
- 2024-2025學(xué)年人教版七年級(jí)英語(yǔ)上冊(cè)各單元重點(diǎn)句子
評(píng)論
0/150
提交評(píng)論