BLEU一種機器翻譯自動評價方法

上傳人：s*** IP屬地：天津上傳時間：2022-05-05 格式：DOCX 頁數(shù)：7 大?。?5.14KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、BLEU：一種機器翻譯自動評價方法BLEU：aMethodfbrAutomaticEvaluationofMacliiiieTranslation1KishorePapineiii,SalimRoukos,ToddWard,andWei-JingZliu編譯：洪潔文章來源：多語工程技術研究中心云翻譯技術第12期摘要：這篇論文是關于BLEU方法的最原始的文字，由IBM公司的研究人員發(fā)表。論文從機器翻譯評價的研究背景開始，詳細介紹了BLEU方法的基本原理，基本要素，和基本測量指標的選取、指標的修正，以及最終獲取BLEU值的計算公式。論文中還對BLEU值的可信性的進行了考察。研究者們作了一系列的翻譯

2、評價測試，觀測基本測量指標值和最終的BLEU值能否區(qū)分人工翻譯結(jié)果和機器翻譯結(jié)果，不同的機器翻譯結(jié)果和不同的人工翻譯結(jié)果。最后，研究者們還對BLEU值評分和人工評分作了一個相關性分析。1. 研究背景論文首先提到為什么要進行這個研究。對機器翻譯作人工評價時會考量到翻譯的許多方面：如翻譯的充分性、忠實度、和流暢度。通常這些人工評價工作非常費時也非常昂貴。對于機器翻譯的研發(fā)人員來說這種人工評價方式非常不方便，因為他們需要對機器翻譯系統(tǒng)作口常的監(jiān)測和評估，以了解每個小改變，從而甄選出好的想法。在這篇論文中，研究者們提出一種快速、費用低廉、不受語言種類限制，而且同人工評價高度相關的機器翻譯自動評價方法。

3、他們是如何評價翻譯的好壞呢？研究者們的評價方法所依據(jù)的論點是：機器翻譯同專業(yè)人工翻譯越接近越好。為了評價機器翻譯質(zhì)量，他們還需要使用某種“數(shù)值型度量指標”來衡量機器譯文同人工翻譯的參考譯文的相近程度。因此這個新的自動評價系統(tǒng)包括兩個要素:數(shù)值型度量指標，用來計量待測翻譯結(jié)果同參考譯文的相近程度：高質(zhì)量的人工翻譯參考譯文。其中數(shù)值型度量指標參考了語音識別工作中使用的“單詞出錯率”這個指標，并作了一些調(diào)整：如使用多個參考譯文，允許選用不同的單詞（同義詞）和不同的詞語順序。2. BLEU方法使用的基本度量指標和概念3. 1"n單位片段“（n-gram）由于語言的多樣性和復雜性，在通常情況下

4、，一句話會有多個“正確”的翻譯方式，對應著多個正確的譯文。這些譯文中可能選用不同的詞語，或者是選用的詞語相同而語言順序不同，而人類總是能夠清楚地分辨出哪個是更好的譯文。比如例1中對同一句漢語的兩種譯法：例1：待評價譯文1：Itisaguidetoactionwliichensiuesthattliemilitaryalwaysobeysthecommandsoftheparty.待評價譯文2:Itistoinsurethetioopsforeverhearingtlieactivityguidebooktliatpartydirect.兩個譯文質(zhì)量差別明顯，待評價譯文1的質(zhì)量明顯好于待評價譯文

5、2。為了比較,我們?yōu)檫@句話提供了三個參考譯文：參考譯文1：ItisaguidetoactionthatensuresthatthemilitaiywillforeverheedPartyconunaiids.參考譯文2:ItistheguidingprinciplewliichguaranteestliemilitaiyforcesalwaysbeingunderthecommandoftheParty.參考譯文3：Itistliepracticalguidefortheannyalwaystoheedthedirectionsoftlieparty.可以看到待評價譯文1同三個參考譯文有著較多

6、的相同字詞和短語，而待評價譯文2則沒有。待評價譯文1同參考譯文1相同的部分有4Itisaguidetoaction94ensuresthatthemilitary,Commands1,同參考譯文2相同的部分有4winch'4always'4oftheparty同參考譯文3相同的部分有4always,0相比之下，待評價譯文2同三個參考譯文的相似處極少。BLEU方法便是對待評價譯文和參考譯文的“n-單位片段（ngram）”進行比較,并計算出匹配片段的個數(shù)。這些匹配片段與它們在文字中存在的位置無關。匹配片段數(shù)越多，則待評價譯文質(zhì)量越好。作者從最簡單的情況，”1單位片段(uiiigia

7、m)”匹配情況開始介紹。2.2精確度(Precision)和“修正的n-單位精確度”(modifiedn-gramprecision)論文中研究者們使用的“數(shù)值型度量指標”基礎是精確度(precision)的測量。先來看”1單位片段"(unigram)的情況。在例1中，將待評價譯文和三個參考譯文進行比較，待評價譯文中單詞出現(xiàn)在三個參考譯文中的個數(shù)除以待評價譯文中總單詞個數(shù)，便得到原始的精確度(precision)計算結(jié)果。然而，由于一些特殊情況，研究者們對這個原始的精確度作了一些修正。來看一種特例情況：例2:待評價譯文：thethethethethethethe參考譯文1：Theca

8、tisonthemat.參考譯文2:Tliereisacatonthemat.問題很明顯，當某個參考譯文中的某個單詞匹配完以后，這個單詞就不應該再繼續(xù)計數(shù)匹配了。論文中對數(shù)值型指標精確度采取的這一修正方式稱為“剪切”(clipping)o得到的精確度稱為“修正過的n單位片段精確度”(modifedngraniprecision)o在例2中待評價譯文得到的“修正過的1單位片段精確度值”=2/7.在例1中，待評價譯文1得到的“修正過的1單位片段精確度值”=17/18,待評價譯文2得到的“修正過的1單位片段精確度值”=8/14。這種剪切方式同樣適用于n=2,3,4等任意數(shù)值的情況。如在例1中，待評價

9、譯文1的“修正過的2單位片段精確度值"(modifiedbigramprecision)=10/17,待評價譯文2得到的“修正過的2單位片段精確度值”=1/13。這種“修正過的n單位片段精確度”(modifiedn-graniprecision)強調(diào)了翻譯的兩個方面：充分性和流暢度。待評價譯文同參考譯文使用相同的n單位片段(n-gram)反映翻譯的充分性，其中匹配片段的長度則反映了翻譯的流暢度。在機器翻譯評價中通常使用的是整篇文章和大段文字，此BLEU方法也是如此,使用大文字量進行翻譯評價。使用大文字量可以減少偶然性的影響，從而生成更高質(zhì)量的評價。在BLEU方法中，首先逐個句子計算“

10、n-單位片段”的匹配個數(shù)，然后將經(jīng)過剪切的“n-單位片段”匹配記數(shù)加起來求和，再除以待評價譯文中“n-單位片段”個數(shù)，得到一個“經(jīng)修正的廠單位片段精確度值"(modifiedngramprecisionscore),記作R】。為了證明指標K能夠?qū)①|(zhì)量不同的翻譯結(jié)果區(qū)分開來，作者選取了一段高質(zhì)量的人工譯文和一段標準的機器譯文(代表比較差的翻譯結(jié)果)，分別包括127個句子，使用4個參考譯文，來分別計算它們的K值。當n-gram的n取值1,2,3,4時，一共得到四個及值。結(jié)果顯小隨著n值增大，當值的絕對值減小，而兩個譯文的左值差別增大：而且當n刁時，Pn值已經(jīng)明顯顯示出兩組的差別。如原文圖

11、1.Figure1:DistinguishingHumanfiomMacliinePhrase(ngram)Lengh研究者們進一步檢測了在譯文質(zhì)量相差不是非常明顯的情況下，如比較幾個不同的機器翻譯結(jié)果，或者是比較幾個不同的人工翻譯結(jié)果，均值這個指標能否對這些譯文加以區(qū)分。為了考察這一點，研究者們使用了三個機器翻譯系統(tǒng)給出的譯文，和兩個人工翻譯給出的譯文，在n-gram取值不同的情況下，各自計算了它們的左值。結(jié)果發(fā)現(xiàn)，在n為某一固定值時，各個譯文得到的此值大小都有差別，而且在不同n取值情況下，五個譯文得到的&值大小排列順序是完全一致的。如原文圖2.123Phrase(wgram)Len

12、gth|bH2OHlBS3HS2OS1Figure2:MachineandHumanIranslations2.3.BP值(BrevityPenalty)和BLEU值的計算公式K值可以反映出譯文的質(zhì)量，那么不同n取值的匕值是如何結(jié)合起來的呢？研究者們使用了R】值加權后的對數(shù)值之和的形式。最終BLEU值是如何得到的呢？研究者們還考慮到一種情況，就是待測譯文翻譯不完全不完整的情況，這個問題在機器翻譯中是不能忽略的，而簡單的此值不能反映這個問題。因此研究者們在最后的BLEU值中引入了BP(BrevityPenalty)這個指標。作者指定當待評價譯文同任意一個參考譯文長度相等或超過參考譯文長度時，BP

13、值為1,當待評價譯文的長度較短時，則用一個算法得出BP值。以c來表示待評價譯文的長度，r來表示參考譯文的文字長度，則BP=1ifc>reM)ifcVr最后得到BLEU值計算公式NBLEU=BP-WWnlogPnn=l3、對BLEU值指標評價效果的驗證BLEU值的取值范圍是從0到1的數(shù)值。只有譯文同參考譯文完全一致的時候才會有評分為1的情況。值得注意的一點是，使用越多的參考譯文，BLEU評分值就越高。因此在參考譯文數(shù)量不同的情況下，對不同BLEU值的譯文結(jié)果要慎重判斷。為了評價BLEU值指標的性能，作者使用了一份包含500個句子的文檔進行翻譯評價，選取了五種譯文結(jié)果：三個為機器翻譯系統(tǒng)給出

14、的譯文結(jié)果，用SI,S2,S3表示，兩個為非專業(yè)人工翻譯譯文結(jié)果，用Hl,H2表示。評價中使用了兩份參考譯文。結(jié)果如表1所示。表1.500個句子大小文字得到的BLUE值S1S2S3S4S50.05270.08290.09300.19340.2571其中三個機器翻譯譯文SI,S2,S3的BLEU值非常接近。作者還希望能回答以下三個問題：1 .各個譯文結(jié)果的BLEU值差異是否可信？2 .BLEU值的方差是多少？3 .如果我們選用另外一個500句子的文檔，能得到相同的結(jié)果嗎？為了回答這些問題，500個句子的文字被劃分成20個部分，每個部分包含25個句子，然后分別使用這20個部分來計算譯文的BLEU值

15、。這樣五組譯文（三個機器翻譯結(jié)果，兩個非專業(yè)人工翻譯結(jié)果）各得到20個BLEU值。然后對這五組BLEU值數(shù)據(jù)進行分析：計算均值，標準差，并對這五組數(shù)據(jù)每相鄰兩組（按照均值大小從左至右排列）進行比較，作配對T檢驗。結(jié)果發(fā)現(xiàn)每個BLEU值同其左側(cè)BLEU值比較，差別均具有顯著性。如表2所示。表2.配對t檢驗（每組包括20個BLEU值）S1S2S3H1H2均值0.0510.08100.0900.1920.256標準差0.0170.02500.0200.0300.039paired-t值63.42411最后研究者們還進行了了將BLEU評分結(jié)果同人工評分結(jié)果進行比較的研究。同樣是上面研究使用的機器譯文，

16、選取了兩組人員進行人工評分，每組10人。一組評分員只通曉英語一種語言(Monolingual),那么他們的評分側(cè)重翻譯的流暢度。一組評分員則通曉英語和漢語兩種語言(Bilingual),他們的評分則反映了翻譯的更多方面，除了流暢度外還考量到翻譯的充分性和忠實度。研究者們對人工評分結(jié)果和BLEU值結(jié)果進行了相關性研究，發(fā)現(xiàn)通曉英語一種語言的評分組，其評分結(jié)果同BLEU值的相關系數(shù)為0.99；通曉漢英兩種語言的組,其評分結(jié)果同BLEU值的相關系數(shù)為0.96(見原文圖5,圖6)。COE3bpm-enbu-oUOIAIFigure6:BLEUpredictsI3ilingualJudgmentsw(D

人人文庫> 全部分類> 應用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

BLEU一種機器翻譯自動評價方法

文檔簡介

溫馨提示

最新文檔

評論

BLEU一種機器翻譯自動評價方法

文檔簡介

溫馨提示

最新文檔

評論

相關文檔