編譯：《機(jī)器翻譯基本分類與基本工作原理》(共8頁)

上傳人：a*** IP屬地：湖北上傳時間：2022-08-02 格式：DOC 頁數(shù)：11 大?。?1KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器翻譯基本(jbn)分類與基本工作原理編譯(biny)：洪潔傳神(chunshn)語聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司多語工程中心編譯：洪雷中國科學(xué)院大學(xué) 外語系文章來源：多語工程技術(shù)研究中心云翻譯技術(shù)第12期，轉(zhuǎn)載請注明出處摘要本篇綜述對機(jī)器翻譯基本工作原理和基本分類進(jìn)行了歸納總結(jié)，并且對機(jī)器翻譯的未來發(fā)展方向進(jìn)行了初步探討。關(guān)鍵詞機(jī)器翻譯工作原理分類機(jī)器翻譯（Machine Translation，MT）是建立在多學(xué)科基礎(chǔ)上的綜合學(xué)科，現(xiàn)代理論語言學(xué)的發(fā)展，計算機(jī)科學(xué)的進(jìn)步，信息學(xué)和概率統(tǒng)計學(xué)的應(yīng)用，對機(jī)器翻譯的發(fā)展和演變產(chǎn)生了重要影響。機(jī)器翻譯的基本思想是利用計算機(jī)對自然語言

2、進(jìn)行翻譯，而各種機(jī)器翻譯系統(tǒng)采用的技術(shù)和理念不盡相同；面對各種各樣的機(jī)器翻譯系統(tǒng)，文獻(xiàn)上有各種分類方式。本文根據(jù)所應(yīng)用的基本工作原理對機(jī)器翻譯系統(tǒng)分類作一綜述。1.基本類型的機(jī)器翻譯系統(tǒng)：現(xiàn)有的機(jī)器翻譯系統(tǒng)按照其基本工作原理，可以分為基于規(guī)則的（Rule-Based）機(jī)器翻譯，基于實例的（Example-Based）機(jī)器翻譯和統(tǒng)計型的（Statistical）機(jī)器翻譯這三種基本類型。1.1.基于規(guī)則的機(jī)器翻譯系統(tǒng)（Rule-Based Machine Translation, RBMT）：其基本工作原理基于一個假設(shè)，即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來?；谶@個假設(shè)的機(jī)器翻譯方法又可以分為

3、三類：直接翻譯法（Direct Translation），中間語言法（Interlingual Approach），和轉(zhuǎn)換法（Transfer Approach）。它們都需要用到大規(guī)模的雙語詞典，需要用到源語言推導(dǎo)規(guī)則，語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則；其不同點在于對語言進(jìn)行的分析深度不同。如直譯法幾乎不需要進(jìn)行語言分析，中間語言法和轉(zhuǎn)換法需要對源語言和目標(biāo)語言進(jìn)行某種程度的語言分析。1.1.1直接(zhji)翻譯法（Direct Translation）：這種翻譯(fny)方法直接(zhji)對源文字中的字詞進(jìn)行逐個翻譯，譯后文字順序按照原文順序進(jìn)行排列。這是基于規(guī)則的機(jī)器翻譯的最早的工作方法

4、。這種譯法簡單、直觀，其弊端也是明顯的：由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。1.1.2中間語言法（Interlingual Approach）：這種翻譯方法對源語言文字進(jìn)行透徹的語言分析，將其轉(zhuǎn)化為一種中間語言表達(dá)形式，進(jìn)而由這種中間語言（Interlingua）進(jìn)一步生成和輸出符合目標(biāo)語言語法規(guī)則的文字。這種中間語言是一種非自然語言，即不是任何國家地區(qū)人們使用的語言；而且它是一種沒有歧義的表達(dá)方式。此外，中間語言不是唯一的，不同的系統(tǒng)采用不同的中間語言。任意一種語言經(jīng)由中間語言譯為其它任意一種語言，理論上這種中間語言法是最有效率的一種翻譯方式。假定世

5、界上總共有n種自然語言，使用中間語言法，只需2n個模塊就可以解決所有自然語言之間的互譯問題。不使用中間語言，這些語言間的互譯則需要n(n-1)個模塊。當(dāng)n大于3時，2n小于n(n-1)。我們知道，世界上的自然語言種類遠(yuǎn)大于3，因此2n個模塊的數(shù)量遠(yuǎn)小于n(n-1)個模塊的數(shù)量。1.1.3轉(zhuǎn)換法（Transfer Approach）：這種翻譯方法先對源語言文字進(jìn)行一定程度的語言分析，去除語法的因素，生成源語言的中間表達(dá)方式，然后經(jīng)由轉(zhuǎn)換，生成目標(biāo)語言的中間表達(dá)方式，再由目標(biāo)語言的中間表達(dá)方式生成和輸出符合目標(biāo)語言語法規(guī)則的文字。目前來說，轉(zhuǎn)換法的語言分析和實現(xiàn)方法在三種方法中最為復(fù)雜，得到的翻譯

6、質(zhì)量在三種方法中也是最好的，是目前商業(yè)上最常使用的翻譯方法，在商業(yè)上最為成功。在許多基于規(guī)則的機(jī)器翻譯系統(tǒng)中，由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標(biāo)語言的語法規(guī)則，以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標(biāo)語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。然而使用全人工來制作這些規(guī)則非常昂貴、費時，而且易于出錯。一個解決方法便是將以往的歷史翻譯結(jié)果作為資源庫，其中的源語言文字和它對應(yīng)的目標(biāo)語言譯文作為例子，從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對源文字和目標(biāo)語言譯文作人工標(biāo)記以示關(guān)聯(lián)。Sato 和Nagao1研發(fā)出一個系統(tǒng)，用“平面依賴關(guān)系樹”來表示源語言文字和目標(biāo)語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計算機(jī)高效識別的一種形式。通常用兩個層次

7、代表源語言和目標(biāo)語言之間的關(guān)聯(lián)：第一層次依賴于文字的表面形式（如字、詞順序），用于源語言的分析和目標(biāo)語言的生成；第二層次依賴于字詞間的語義關(guān)聯(lián)，用于從源語言向目標(biāo)語言的轉(zhuǎn)換。這種機(jī)器翻譯系統(tǒng)在基于規(guī)則的機(jī)器翻譯基礎(chǔ)上，利用了實例庫的優(yōu)勢。隨著(su zhe)大量歷史翻譯結(jié)果(ji gu)的積累，出現(xiàn)了基于實例的機(jī)器翻譯系統(tǒng)，人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫，利用(lyng)到機(jī)器翻譯中來。1.2.基于實例的機(jī)器翻譯（Example-Based Machine Translation，EBMT）：其基本工作原理是基于類比（Analogy）的原則，從實例庫中匹配出與源文字片段最相似的文字片段

8、，取出實例文字片段對應(yīng)的目標(biāo)語言翻譯結(jié)果，進(jìn)行適當(dāng)?shù)母脑?，最終得出完整的翻譯結(jié)果?；趯嵗臋C(jī)器翻譯其核心思想最早由Mako Nagao 提出2，他提出：人們在翻譯簡單句子時并不作深層語言分析，而是翻譯。首先把源句子分解成若干片段，然后將這些片段譯為目標(biāo)語言，每個片段的翻譯都是通過與例句做匹配以類比的原則得到的，最后將這些譯后句子組合成一個長句子。1.2.1.實例庫的構(gòu)成：實例庫也稱為語料庫（Corpus），由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料，包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機(jī)器翻譯結(jié)果。語料庫由雙語對構(gòu)成，包括源語言文字片段和目標(biāo)語言譯文文字片段兩部分。這些翻譯結(jié)果要先

9、經(jīng)過拆分和對齊處理，才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫（Parallel Corpus）。拆分和對齊目前有多種形式，如句子水平的對齊和短語水平的對齊。對齊的文字片段大小的選擇，會直接影響匹配的效率和翻譯結(jié)果。 1.2.2.語料拆分的碎片(su pin)化問題：Nirenburg等（1993）指出(zh ch)，在基于實例的機(jī)器翻譯(j qfny)系統(tǒng)（EBMT）中，實例語料存在一個文字片段長度和相似度之間的一個矛盾。文字片段越長，越不易得到一個相似度高的匹配；文字片段越短，越可能得到一個大致匹配，但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險也越大。比如由段落劃分邊界產(chǎn)生的重疊問題以

10、及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對比較好，有諸多優(yōu)勢如：句子的邊界劃分清楚，一些簡單句子的結(jié)構(gòu)清晰。然而在實際應(yīng)用中，以句子為單位并不是最恰當(dāng)?shù)姆绞健嵺`證明匹配和重組過程需要使用更加短小的片段3。（當(dāng)然，這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。）1.2.3.實例庫定制：實例語料的的范圍和質(zhì)量影響著基于實例的機(jī)器翻譯系統(tǒng)（EBMT）的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機(jī)器翻譯在此領(lǐng)域的翻譯質(zhì)量，稱為語料（實例）庫的定制。1.3. 統(tǒng)計型機(jī)器翻譯系統(tǒng)(Statistical MT)：IBM公司的Brown在1990年

11、首先將統(tǒng)計模型用于法-英機(jī)器翻譯。其基本思想是：把機(jī)器翻譯問題看成是一個噪聲信道問題，然后用信道模型來進(jìn)行解碼。翻譯過程被看作是一個解碼的過程，進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的過程?；谶@種思想的機(jī)器翻譯重點是定義最合適的語言概率模型和翻譯概率模型，然后對語言模型和翻譯模型的概率參數(shù)進(jìn)行估計。語言模型的參數(shù)估計需要大量的單語語料，翻譯模型的參數(shù)估計需要大量平行雙語語料。統(tǒng)計機(jī)器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能，此外，要找到最優(yōu)的譯文，還需要有好的搜索算法。簡單說，統(tǒng)計機(jī)器翻譯首先建立統(tǒng)計模型，然后使用實例庫中的實例對統(tǒng)計模型進(jìn)行訓(xùn)練，得到需要的語言模型和翻譯模型用于翻譯。統(tǒng)計(t

12、ngj)型機(jī)器翻譯，除了基于噪聲信道(xn do)理論的系統(tǒng)以外，還有基于最大熵方法的系統(tǒng)。博格（A.L.Berger）在1996年提出(t ch)自然語言處理中“最大熵方法”（Maximum Entropy Approach）。德國人奧赫（Franz Joseph Och）等發(fā)現(xiàn)，把IBM公司的統(tǒng)計機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型，總體的翻譯正確率并沒有降低，由此，他們提出基于最大熵方法的機(jī)器翻譯模型。統(tǒng)計型機(jī)器翻譯取得了一定的成績，然而純統(tǒng)計設(shè)計卻不能解決所有困難。統(tǒng)計型的方法不考慮語言的語義、語法因素，單純用數(shù)學(xué)的方法來處理語言問題，有著巨大的局限性。于是人們開始

13、探索基于統(tǒng)計方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計的和基于實例的機(jī)器翻譯系統(tǒng)，統(tǒng)計的和基于規(guī)則的機(jī)器翻譯系統(tǒng)，等等。2. 綜合類型的機(jī)器翻譯系統(tǒng)：以上三個基本機(jī)器翻譯系統(tǒng)各有優(yōu)勢和長處，同時又不可避免的具有某種缺陷和局限性。如基于規(guī)則的機(jī)器翻譯系統(tǒng)（RBMT）可以準(zhǔn)確的描述語言學(xué)特征和規(guī)律，然而制定適用和完備的語言規(guī)則卻不是一件容易的事；基于實例的機(jī)器翻譯系統(tǒng)（EBMT）可以充分利用已有的翻譯結(jié)果，但是實例庫的維護(hù)需要大量的人工和費用；統(tǒng)計型的機(jī)器翻譯（Statistical MT）可以緩解知識獲取的瓶頸問題，但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。為進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯水平，人們

14、綜合以上幾個基本類型的優(yōu)勢，又發(fā)明了混合型機(jī)器翻譯系統(tǒng)（Hybrid MT），多引擎機(jī)器翻譯系統(tǒng)（Multi-Engine MT）和提出了基于知識的機(jī)器翻譯系統(tǒng)（Knowledge-Based MT）的理論。 2.1混合型機(jī)器翻譯系統(tǒng)（Hybrid MT）：翻譯過程使用兩種或以上機(jī)器翻譯原理。比如：基于規(guī)則的機(jī)器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強(qiáng)的規(guī)則系統(tǒng)成為研究焦點。使用傳統(tǒng)的方法，語法規(guī)則庫的建立需要大量的人力、物力，大量的語言語法規(guī)則之間往往存在著不可避免的沖突，規(guī)則的完備性和適應(yīng)性不能得到保證。隨著人們翻譯工作的進(jìn)行，生成大量已完成的翻譯結(jié)果，形成

15、大量語料。人們想到了使用統(tǒng)計方法從現(xiàn)有語料中自動提取我們需要的語言語法信息。從實例中抽取語言轉(zhuǎn)換規(guī)則，將基于實例的機(jī)器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ)，而不是單純用來進(jìn)行類比翻譯。通過一個歸納的過程，從大量例句中提出抽象的規(guī)則 4 5。這樣傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ)，語料庫為輔助的機(jī)器翻譯方法。這種翻譯模型可以稱之為混合型機(jī)器翻譯系統(tǒng)（Hybrid MT）。 2.2多引擎(ynqng)機(jī)器翻譯系統(tǒng)（Multi-Engine MT）：這種機(jī)器翻譯系統(tǒng)的基本思想是幾架機(jī)器翻譯引擎同時進(jìn)行并行翻譯，并行翻譯的這幾架翻譯引擎分別基于不同的工作原理，給出多個翻譯結(jié)果，然后通過某種

16、機(jī)制或算法篩選并生成最優(yōu)翻譯結(jié)果進(jìn)行輸出。多引擎機(jī)器翻譯系統(tǒng)的一種工作方式如：接收到源文字(wnz)后，先將文字轉(zhuǎn)化為若干文字片段，由多個機(jī)器翻譯引擎進(jìn)行并行翻譯，各個文字片段均得到多個(du )翻譯結(jié)果，通過某種機(jī)制選擇最優(yōu)的翻譯片段組成最優(yōu)組合，最后輸出最優(yōu)的翻譯結(jié)果6?；蛘呤墙邮盏皆次淖趾螅啥鄠€機(jī)器翻譯引擎進(jìn)行并行翻譯，得到多個翻譯結(jié)果，然后對各個翻譯結(jié)果進(jìn)行字詞的比較，通過某種假設(shè)檢驗和算法，選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出7。 2.3. 基于知識的機(jī)器翻譯系統(tǒng)（Knowledge-Based MT）：在機(jī)器翻譯研究中，人們越來越發(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會源語言的重要

17、性。語言有著其復(fù)雜性。其中語言的模糊性是各種機(jī)器翻譯系統(tǒng)所面對的最頑固的難題。語言的模糊性指語言文字同一表層結(jié)構(gòu)對應(yīng)著兩種或兩種以上的深層結(jié)構(gòu)，簡單說就是一種形式對應(yīng)著兩種或兩種以上的解釋，必須通過上下文內(nèi)容的提示和綜合知識背景、常識才可能做出正確的詮釋。受人工智能，知識工程的發(fā)展影響，人們開始強(qiáng)調(diào)對源語言更為徹底的理解，提出不僅需要進(jìn)行深層語言分析，還需要進(jìn)行世界知識的積累和處理，建立知識庫，以助于理解語言。通過對世界知識的了解，解決機(jī)器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機(jī)器翻譯所面對的語言的模糊性問題，人們提出了基于知識的機(jī)器翻譯系統(tǒng)。2.3.1基于(jy)語義網(wǎng)的機(jī)器翻譯（

18、Semantic Web based Machine Translation, SWMT）：是基于知識的機(jī)器翻譯系統(tǒng)(xtng)的一種實現(xiàn)方式。語義網(wǎng)（Semantic Web），指通過某種技術(shù)，將現(xiàn)有網(wǎng)絡(luò)上的知識(zh shi)內(nèi)容轉(zhuǎn)化為機(jī)器可以辨識的內(nèi)容，成為機(jī)器翻譯的“世界知識庫”。這些理論基于Tim Berners-Lee提出的觀點“知識一旦經(jīng)定義和形式化后，便可以通過任意方式訪問”。萬維網(wǎng)最初的設(shè)計是希望它簡單，去中心化并且盡可能的易于互動。網(wǎng)絡(luò)的發(fā)展證明它是一個巨大的成功。然而，網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計算機(jī)也能夠接受和利用這些信息資源，在新的世紀(jì)一種擴(kuò)展和補(bǔ)充性質(zhì)

19、的技術(shù)出現(xiàn)了, 稱為W3C，Semantic Web3 （三維語義網(wǎng)）。三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的“資源描述構(gòu)架”（ Resource DescriptionFramework，RDF）, 它定義了一種結(jié)構(gòu)，用一種自然的方式來描述計算機(jī)處理的巨大量的數(shù)據(jù)8。目前人們已經(jīng) 在嘗試將現(xiàn)有的機(jī)器翻譯系統(tǒng)整合入語義網(wǎng)，以充分利用世界知識/專家知識, 提高機(jī)器翻譯質(zhì)量9。3語音翻譯（Speech Translation）：語音翻譯是與文字翻譯相對應(yīng)的一種機(jī)器翻譯分類，與前面的分類有著不同。但是有著廣泛的應(yīng)用，如日常交談、電話通話、會議講話等對語音交流內(nèi)容的自動翻譯，在實際應(yīng)用中非常重要。語音翻譯

20、在翻譯之前增加了一個語言識別（Speech Recognition）過程，形成正確的文字內(nèi)容輸入，并且在翻譯過程完成后增加了一個語音合成（Speech Synthesis）過程，形成一個正確的語音內(nèi)容輸出。其中語音識別技術(shù)和語音合成技術(shù)都有著專門研究，這里不再贅述。參考文獻(xiàn)：1 Sato, S and Nagao, M. Towards memory-based translation. Coling, 1990, Vol.3, pp. 247-252 2 Nagao，M. A framework of a mechanical translation between Japanese a

21、nd English by analogy principle. Artificial and Human Intelligence. Amsterdam, North-Holland. A.Elithorn and R.Banerji (eds), 1984, pp. 173-180 3 Nirenburg, S, C. Domashnev and D.J. Grannes. Two approaches to matching in Example -Based Machine Translation. TMI, 1993, pp.47-57 4 Furuse, O and H. Iida. An example-based method for transferdriven machine translation. TMI, 1992, pp.139-1505 Furuse, O and H. Iida. Cooperation between transfer and analysis in exampleb

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

編譯：《機(jī)器翻譯基本分類與基本工作原理》(共8頁)

文檔簡介

溫馨提示

最新文檔

評論

編譯：《機(jī)器翻譯基本分類與基本工作原理》(共8頁)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔