《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》

上傳人：1*** IP屬地：浙江上傳時間：2025-01-04 格式：PDF 頁數(shù)：9 大小：347.29KB 積分：11 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

ICS03.080.99

CCSA20

團體標(biāo)準(zhǔn)

T/CAQXXXXX—2023

機器翻譯服務(wù)質(zhì)量評價規(guī)范—中英雙向

SpecificationforQualityEvaluationofMachineTranslation

Service—English-Chinese

（征求意見稿）

2023-XX-XX發(fā)布2023–XX–XX實施

中國質(zhì)量協(xié)會發(fā)布

T/CAQXXXXX—2023

機器翻譯服務(wù)質(zhì)量評價規(guī)范—中英雙向

1范圍

本文件規(guī)定了中英雙向機器翻譯服務(wù)質(zhì)量評價的方式、方法、評價標(biāo)準(zhǔn)和評價能力要求。

本文件的應(yīng)用場景包括但不限于機器翻譯服務(wù)上線、國際和國內(nèi)機器翻譯比賽、機器翻譯服務(wù)競

品對比、機器翻譯模型上線驗證、機器翻譯模型訓(xùn)練驗證等。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文

件，僅該日期對應(yīng)的版本適用于本文件。不注日期的引用文件，其最新版本（包括所有的修改單）適

用于本文件。

GB/T19363.1—2022翻譯服務(wù)第1部分：服務(wù)要求

GB/T19682—2005翻譯服務(wù)譯文質(zhì)量要求

GB/T19000質(zhì)量管理體系基礎(chǔ)和術(shù)語（idtISO9000：2000）

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

機器翻譯服務(wù)machinetranslationservice

用計算機程序?qū)⑽谋净蛘Z言從一種自然語言轉(zhuǎn)換成另一種自然語言的服務(wù)。

3.2

機器翻譯質(zhì)量machinetranslationquality

機器翻譯譯文在傳達原文語義，表達流暢等方面，幫助服務(wù)對象進行信息閱讀、理解和交流的程

度。

3.3

質(zhì)量評價qualityevaluation

采用特定評價方法和指標(biāo)衡量機器翻譯質(zhì)量的過程。

3.4

人工質(zhì)量評價humanevaluation

評價人員根據(jù)預(yù)先設(shè)定的標(biāo)準(zhǔn)，對機器翻譯譯文的忠實度、流利度等方面進行評分或提供反饋意見。

機器翻譯的人工評價方式包含但不限于以下幾種：人工打分評估、錯誤分類評估等。

3.5

自動質(zhì)量評價automaticevaluation

有參考譯文的情況下，采用評估指標(biāo)對機器翻譯譯文進行評價。常用的評估指標(biāo)包括但不限于：

BLEU、COMET。

3.6

測試集testset

用于評估機器翻譯模型質(zhì)量的一組數(shù)據(jù)樣本的集合，包含原文（必選）和對應(yīng)的人工譯文（可選）。

T/CAQXXXXX—2023

3.7

參考譯文referencetranslation

測試集的人工譯文部分，該部分可作為參考答案用于機器翻譯質(zhì)量評估。

3.8

錯誤分類errortypology

人工評價過程中，評價人員標(biāo)注機器翻譯錯誤時使用的分類信息。

3.9

忠實度fidelity

用來描述譯文與原文之間的忠實程度，即機器翻譯譯文與原文的語義之間的一致性。

3.10

流利度fluency

用來描述譯文表達的流暢程度，流利度衡量了機器翻譯譯文在語言上的可讀性和可理解性。

4機器翻譯服務(wù)質(zhì)量評價方式

4.1自動評價

本文件采用如下自動評價指標(biāo)衡量機器翻譯質(zhì)量：

——SacreBLEU

——COMET20

工具下載地址參照附錄A。

4.2人工評價

4.2.1直接評分法

本文件采用直接評分法評價機器翻譯質(zhì)量，評分要求及方法如下：

——提供原文、參考集（可選）和待評價機器翻譯的譯文；

——基于公平性考慮，采用盲測，即譯文來源等信息不對評價人員公開；

——打分方法為評價人員判斷待測機器翻譯的譯文還原了原文信息的程度，并據(jù)此給出相應(yīng)的分

數(shù)，得分區(qū)間為[0,100]，扣分最小顆粒度為1分。

得分區(qū)間和對應(yīng)的評價標(biāo)準(zhǔn)參照附錄B。

4.2.2錯誤標(biāo)注

可視實際需求確定是否進行錯誤標(biāo)注。本文件將機器翻譯錯誤分為忠實度錯誤和流利度錯誤2個

大類和10個子類。具體錯誤分類參照附錄C。

5機器翻譯服務(wù)質(zhì)量評價過程

5.1確定評價范圍和方法

基于業(yè)務(wù)需求確定測試集和評價方法（自動評價、人工評價的直接評分法）。

5.2構(gòu)建測試集

5.2.1構(gòu)建自動評價測試集

自動評價測試集為中英雙語的文本，需滿足如下要求：

T/CAQXXXXX—2023

——規(guī)模：1000-5000句（默認2000句）；

——句長：5-200字/詞之間，且5-100字/詞的句子占比不少于90%；

——語義：雙語互譯性高；句子完整且語義相對獨立；句式、內(nèi)容豐富；

——地道性：原文為本地母語；參考譯文翻譯正確，符合目標(biāo)語言的表達習(xí)慣；

——領(lǐng)域：所有句子來源于待測領(lǐng)域。對于重點領(lǐng)域，確保其所有子領(lǐng)域覆蓋全面且均衡。

5.2.2構(gòu)建人工評價測試集

人工評價測試集為中英雙語文本，規(guī)模為200-500句（默認500句），其他要求同自動評價測試

集。

5.3確定評價人員

5.3.1確定自動評價人員

采用自動評價時，評價人員需具備評價工具的操作執(zhí)行能力。

5.3.2確定人工評價人員

采用人工評價時，至少需要兩名評價人員；如需錯誤標(biāo)注，至少需其中一名人員完成標(biāo)注。評價人

員需具備如下能力及資質(zhì)要求：

a)語言及翻譯能力

評價人員需要具備熟練的中文、英文語言能力，有被認可的外語水平證書或與之相當(dāng)?shù)淖C書，有兩

年以上的機器翻譯評測經(jīng)驗或機器翻譯譯后編輯經(jīng)驗，能夠準(zhǔn)確識別機器翻譯文本中的語法、語義、文

化差異、一致性等問題，能夠運用符合中英文化特征的行為規(guī)范、價值體系以及區(qū)域特性等相關(guān)信息的

能力。

b)領(lǐng)域?qū)I(yè)知識

評價人員需要具備高效拓展專業(yè)知識的能力，能夠準(zhǔn)確理解該領(lǐng)域術(shù)語和語言風(fēng)格。

c)技術(shù)能力

評價人員能夠利用技術(shù)資源，包括使用評價工具和信息技術(shù)系統(tǒng)來支撐評價過程。

5.4執(zhí)行評價

5.4.1執(zhí)行自動評價

自動評價人員執(zhí)行自動評價工具輸出機器翻譯質(zhì)量得分。相關(guān)工具下載路徑，參見附錄A。

5.4.2執(zhí)行人工評價

a)完成評價前準(zhǔn)備。

評價前應(yīng)做好以下工作：

——了解評價范圍和方法；

——熟悉所涉領(lǐng)域的知識；

——查閱單詞和專業(yè)術(shù)語；

——如有需要，和需求方確認專業(yè)和術(shù)語上的問題。

b)進行評價并輸出評價報告。

評價人員仔細閱讀并比對原文和機器翻譯文本，按照統(tǒng)一的標(biāo)準(zhǔn)對每句機器翻譯譯文給出一個得

分。每句待測譯文的最終得分取所有評價人員評分的平均值，模型的最終得分為所有待測譯文最終得分

的平均值。

可結(jié)合實際需求，確定是否進行錯誤標(biāo)注。若由一人進行錯誤標(biāo)注，直接匯總每一類錯誤數(shù)；如有

T/CAQXXXXX—2023

多人參與錯誤標(biāo)注，先匯總每人標(biāo)注的每一類錯誤數(shù)，再取每一類錯誤數(shù)的平均值。

此外，評價人員可提供總體反饋和改進建議，并記錄評價過程中發(fā)現(xiàn)的典型案例供后續(xù)分析使用。

6機器翻譯服務(wù)質(zhì)量評價能力要求

機器翻譯服務(wù)質(zhì)量評價提供方需具備如下能力：

——測試集：能夠基于需求構(gòu)建測試集，包括但不限于數(shù)據(jù)提取、清洗、篩選等；

——評價標(biāo)準(zhǔn)：具有明確、可按需定制的評價標(biāo)準(zhǔn)，確保能夠有效、可靠地評價機器翻譯質(zhì)量；

——專業(yè)的評價人員：評價人員擁有從業(yè)經(jīng)驗，能夠基于評價標(biāo)準(zhǔn)提供客觀一致的評價結(jié)果；

——工具或平臺：具有工具或平臺，能夠有效支撐數(shù)據(jù)管理和翻譯質(zhì)量評價服務(wù)流程。

7機器翻譯服務(wù)準(zhǔn)入基線及測試集

7.1機器翻譯服務(wù)準(zhǔn)入基線

7.1.1自動評價方式下的準(zhǔn)入基線

a)通用領(lǐng)域準(zhǔn)入基線

通用領(lǐng)域下，本標(biāo)準(zhǔn)定義如下機器翻譯服務(wù)準(zhǔn)入基線：

語向測試集SacreBLEUCOMET20

WMT2225.0032.00

中到英

CCMT2133.0036.00

英到中WMT2248.0059.00

CCMT2148.0052.00

注1：本標(biāo)準(zhǔn)采用WMT22、CCMT21數(shù)據(jù)作為通用開發(fā)集，定義以上機器翻譯服務(wù)準(zhǔn)入基線。

注2：機器翻譯服務(wù)提供方可以從WMT、CCMT官方網(wǎng)站，獲取公開數(shù)據(jù)，進行機器翻譯服務(wù)質(zhì)量自測、質(zhì)量提升

等相關(guān)活動。

b)垂直領(lǐng)域準(zhǔn)入基線

因領(lǐng)域不固定，無法設(shè)置統(tǒng)一基線，可與行業(yè)開源的機器翻譯系統(tǒng)進行橫向?qū)Ρ?，了解質(zhì)量優(yōu)劣，

確定是否滿足準(zhǔn)入基線。

7.1.2人工評價方式下的準(zhǔn)入基線

人工評價采用百分制，直接評分大于等于80分，作為機器翻譯服務(wù)準(zhǔn)入基線，不區(qū)分領(lǐng)域。

7.2測試集

機器翻譯服務(wù)認證活動中使用的測試集為非公開數(shù)據(jù)，符合5.2有關(guān)要求，由第三方公正性平臺提

供或確認。

T/CAQXXXXX—2023

附錄A

（規(guī)范性）

自動評價工具下載地址

SacreBLEU：/mjpost/sacrebleu

COMET：https://unbabel.github.io/COMET/html/faqs.html#which-comet-model-should-i-use

T/CAQXXXXX—2023

附錄B

（規(guī)范性）

直接評分法得分區(qū)間

表B.1列出了采用直接評分法的得分區(qū)間和對應(yīng)的評價標(biāo)準(zhǔn)。

表B.1得分區(qū)間和對應(yīng)的評價標(biāo)準(zhǔn)

得分區(qū)間標(biāo)準(zhǔn)

0-20譯文語義不明或完全錯誤，只有小部分字、短語正確且可讀性極差，難以理解。

譯文與原文極少部分語義相同但關(guān)鍵信息缺失或錯誤且可讀性較差，大量不地道、

21-40

不流利表達和語法錯誤。

41-60譯文能體現(xiàn)部分關(guān)鍵語義，但大量非關(guān)鍵語義錯誤且流利度、地道性欠佳。

譯文基本能傳達原文關(guān)鍵語義，但存在部分非關(guān)鍵信息錯誤，同時存在語法錯誤和

61-80

非地道性表達。

81-100譯文可呈現(xiàn)原文語義，只存在少量非關(guān)鍵信息錯誤且表達較地道流暢。

T/CAQXXXXX—2023

附錄C

（規(guī)范性）

機器翻譯錯誤分類

表C.1規(guī)定了機器翻譯錯誤類別。

表C.1機器翻譯錯誤分類

錯誤大類錯誤子類

術(shù)語/命名實體錯誤

錯譯

忠實度漏譯（原文中內(nèi)容在譯文中未體現(xiàn)）

過譯

未譯（原文內(nèi)容直接搬到譯文中，未翻譯）

語域/風(fēng)格錯誤

拼寫錯誤

流利度標(biāo)點錯誤

語法錯誤

晦澀拗口

T/CAQXXXXX—2023

參考文獻

[1]FreitagM,FosterG,GrangierD,etal.Experts,errors,andcontext:Alarge-

scalestudyofhumanevaluationformachinetranslation[J].Transactionsof

人人文庫> 全部分類> 專業(yè)文獻 > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》

文檔簡介

溫馨提示

最新文檔

評論

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔