編譯:《機(jī)器翻譯基本分類與基本工作原理》(共8頁)_第1頁
編譯:《機(jī)器翻譯基本分類與基本工作原理》(共8頁)_第2頁
編譯:《機(jī)器翻譯基本分類與基本工作原理》(共8頁)_第3頁
編譯:《機(jī)器翻譯基本分類與基本工作原理》(共8頁)_第4頁
編譯:《機(jī)器翻譯基本分類與基本工作原理》(共8頁)_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 機(jī)器翻譯基本(jbn)分類與基本工作原理編譯(biny):洪潔 傳神(chunshn)語聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司 多語工程中心編譯:洪雷 中國科學(xué)院大學(xué) 外語系 文章來源:多語工程技術(shù)研究中心云翻譯技術(shù)第12期,轉(zhuǎn)載請注明出處摘要 本篇綜述對機(jī)器翻譯基本工作原理和基本分類進(jìn)行了歸納總結(jié),并且對機(jī)器翻譯的未來發(fā)展方向進(jìn)行了初步探討。 關(guān)鍵詞 機(jī)器翻譯 工作原理 分類機(jī)器翻譯(Machine Translation,MT)是建立在多學(xué)科基礎(chǔ)上的綜合學(xué)科,現(xiàn)代理論語言學(xué)的發(fā)展,計算機(jī)科學(xué)的進(jìn)步,信息學(xué)和概率統(tǒng)計學(xué)的應(yīng)用,對機(jī)器翻譯的發(fā)展和演變產(chǎn)生了重要影響。機(jī)器翻譯的基本思想是利用計算機(jī)對自然語言

2、進(jìn)行翻譯,而各種機(jī)器翻譯系統(tǒng)采用的技術(shù)和理念不盡相同;面對各種各樣的機(jī)器翻譯系統(tǒng),文獻(xiàn)上有各種分類方式。本文根據(jù)所應(yīng)用的基本工作原理對機(jī)器翻譯系統(tǒng)分類作一綜述。1.基本類型的機(jī)器翻譯系統(tǒng):現(xiàn)有的機(jī)器翻譯系統(tǒng)按照其基本工作原理,可以分為基于規(guī)則的(Rule-Based)機(jī)器翻譯,基于實例的(Example-Based)機(jī)器翻譯和統(tǒng)計型的(Statistical)機(jī)器翻譯這三種基本類型。1.1.基于規(guī)則的機(jī)器翻譯系統(tǒng)(Rule-Based Machine Translation, RBMT):其基本工作原理基于一個假設(shè),即語言無限的句子可以由有限的規(guī)則推導(dǎo)出來?;谶@個假設(shè)的機(jī)器翻譯方法又可以分為

3、三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。它們都需要用到大規(guī)模的雙語詞典,需要用到源語言推導(dǎo)規(guī)則,語言轉(zhuǎn)換規(guī)則和目標(biāo)語言生成規(guī)則;其不同點在于對語言進(jìn)行的分析深度不同。如直譯法幾乎不需要進(jìn)行語言分析,中間語言法和轉(zhuǎn)換法需要對源語言和目標(biāo)語言進(jìn)行某種程度的語言分析。1.1.1直接(zhji)翻譯法(Direct Translation):這種翻譯(fny)方法直接(zhji)對源文字中的字詞進(jìn)行逐個翻譯,譯后文字順序按照原文順序進(jìn)行排列。這是基于規(guī)則的機(jī)器翻譯的最早的工作方法

4、。這種譯法簡單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結(jié)果質(zhì)量很不令人滿意。人們已經(jīng)逐漸不再使用這種直接翻譯法。1.1.2中間語言法(Interlingual Approach):這種翻譯方法對源語言文字進(jìn)行透徹的語言分析,將其轉(zhuǎn)化為一種中間語言表達(dá)形式,進(jìn)而由這種中間語言(Interlingua)進(jìn)一步生成和輸出符合目標(biāo)語言語法規(guī)則的文字。這種中間語言是一種非自然語言,即不是任何國家地區(qū)人們使用的語言;而且它是一種沒有歧義的表達(dá)方式。此外,中間語言不是唯一的,不同的系統(tǒng)采用不同的中間語言。任意一種語言經(jīng)由中間語言譯為其它任意一種語言,理論上這種中間語言法是最有效率的一種翻譯方式。假定世

5、界上總共有n種自然語言,使用中間語言法,只需2n個模塊就可以解決所有自然語言之間的互譯問題。不使用中間語言,這些語言間的互譯則需要n(n-1)個模塊。當(dāng)n大于3時,2n小于n(n-1)。我們知道,世界上的自然語言種類遠(yuǎn)大于3,因此2n個模塊的數(shù)量遠(yuǎn)小于n(n-1)個模塊的數(shù)量。1.1.3轉(zhuǎn)換法(Transfer Approach):這種翻譯方法先對源語言文字進(jìn)行一定程度的語言分析,去除語法的因素,生成源語言的中間表達(dá)方式,然后經(jīng)由轉(zhuǎn)換,生成目標(biāo)語言的中間表達(dá)方式,再由目標(biāo)語言的中間表達(dá)方式生成和輸出符合目標(biāo)語言語法規(guī)則的文字。目前來說,轉(zhuǎn)換法的語言分析和實現(xiàn)方法在三種方法中最為復(fù)雜,得到的翻譯

6、質(zhì)量在三種方法中也是最好的,是目前商業(yè)上最常使用的翻譯方法,在商業(yè)上最為成功。 在許多基于規(guī)則的機(jī)器翻譯系統(tǒng)中,由語言學(xué)家輔助編寫一系列關(guān)于源語言和目標(biāo)語言的語法規(guī)則,以及將源語言數(shù)據(jù)轉(zhuǎn)換為目標(biāo)語言數(shù)據(jù)的轉(zhuǎn)換規(guī)則。然而使用全人工來制作這些規(guī)則非常昂貴、費時,而且易于出錯。一個解決方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源語言文字和它對應(yīng)的目標(biāo)語言譯文作為例子,從中嘗試提取出恰當(dāng)?shù)囊?guī)則。方法之一是對源文字和目標(biāo)語言譯文作人工標(biāo)記以示關(guān)聯(lián)。Sato 和Nagao1研發(fā)出一個系統(tǒng),用“平面依賴關(guān)系樹”來表示源語言文字和目標(biāo)語言文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計算機(jī)高效識別的一種形式。通常用兩個層次

7、代表源語言和目標(biāo)語言之間的關(guān)聯(lián):第一層次依賴于文字的表面形式(如字、詞順序),用于源語言的分析和目標(biāo)語言的生成;第二層次依賴于字詞間的語義關(guān)聯(lián),用于從源語言向目標(biāo)語言的轉(zhuǎn)換。這種機(jī)器翻譯系統(tǒng)在基于規(guī)則的機(jī)器翻譯基礎(chǔ)上,利用了實例庫的優(yōu)勢。隨著(su zhe)大量歷史翻譯結(jié)果(ji gu)的積累,出現(xiàn)了基于實例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)完成的翻譯結(jié)果作為資源庫,利用(lyng)到機(jī)器翻譯中來。1.2.基于實例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):其基本工作原理是基于類比(Analogy)的原則,從實例庫中匹配出與源文字片段最相似的文字片段

8、,取出實例文字片段對應(yīng)的目標(biāo)語言翻譯結(jié)果,進(jìn)行適當(dāng)?shù)母脑?,最終得出完整的翻譯結(jié)果?;趯嵗臋C(jī)器翻譯其核心思想最早由Mako Nagao 提出2,他提出:人們在翻譯簡單句子時并不作深層語言分析,而是翻譯。首先把源句子分解成若干片段,然后將這些片段譯為目標(biāo)語言,每個片段的翻譯都是通過與例句做匹配以類比的原則得到的,最后將這些譯后句子組合成一個長句子。1.2.1.實例庫的構(gòu)成:實例庫也稱為語料庫(Corpus),由已經(jīng)完成的翻譯結(jié)果構(gòu)成。這些現(xiàn)成的翻譯結(jié)果也稱為語料,包括人工翻譯的結(jié)果和經(jīng)過人工編輯的機(jī)器翻譯結(jié)果。語料庫由雙語對構(gòu)成,包括源語言文字片段和目標(biāo)語言譯文文字片段兩部分。這些翻譯結(jié)果要先

9、經(jīng)過拆分和對齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel Corpus)。拆分和對齊目前有多種形式,如句子水平的對齊和短語水平的對齊。對齊的文字片段大小的選擇,會直接影響匹配的效率和翻譯結(jié)果。 1.2.2.語料拆分的碎片(su pin)化問題:Nirenburg等(1993)指出(zh ch),在基于實例的機(jī)器翻譯(j qfny)系統(tǒng)(EBMT) 中,實例語料存在一個文字片段長度和相似度之間的一個矛盾。文字片段越長,越不易得到一個相似度高的匹配;文字片段越短,越可能得到一個大致匹配,但是得到低質(zhì)量翻譯結(jié)果的風(fēng)險也越大。比如由段落劃分邊界產(chǎn)生的重疊問題以

10、及不恰當(dāng)?shù)膭澐謱?dǎo)致的翻譯質(zhì)量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對比較好,有諸多優(yōu)勢如:句子的邊界劃分清楚,一些簡單句子的結(jié)構(gòu)清晰。然而在實際應(yīng)用中,以句子為單位并不是最恰當(dāng)?shù)姆绞健嵺`證明匹配和重組過程需要使用更加短小的片段3。(當(dāng)然,這些研究結(jié)果是以歐美語系語言之間的翻譯研究結(jié)果為基礎(chǔ)的。 )1.2.3.實例庫定制:實例語料的的范圍和質(zhì)量影響著基于實例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯質(zhì)量水平。在某特定領(lǐng)域獲取高質(zhì)量語料可以大大提高機(jī)器翻譯在此領(lǐng)域的翻譯質(zhì)量,稱為語料(實例)庫的定制。1.3. 統(tǒng)計型機(jī)器翻譯系統(tǒng)(Statistical MT):IBM公司的Brown在1990年

11、首先將統(tǒng)計模型用于法-英機(jī)器翻譯。其基本思想是:把機(jī)器翻譯問題看成是一個噪聲信道問題,然后用信道模型來進(jìn)行解碼。翻譯過程被看作是一個解碼的過程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的過程?;谶@種思想的機(jī)器翻譯重點是定義最合適的語言概率模型和翻譯概率模型,然后對語言模型和翻譯模型的概率參數(shù)進(jìn)行估計。語言模型的參數(shù)估計需要大量的單語語料,翻譯模型的參數(shù)估計需要大量平行雙語語料。統(tǒng)計機(jī)器翻譯的質(zhì)量很大程度上取決于語言模型和翻譯模型的性能,此外,要找到最優(yōu)的譯文,還需要有好的搜索算法。簡單說,統(tǒng)計機(jī)器翻譯首先建立統(tǒng)計模型,然后使用實例庫中的實例對統(tǒng)計模型進(jìn)行訓(xùn)練,得到需要的語言模型和翻譯模型用于翻譯。 統(tǒng)計(t

12、ngj)型機(jī)器翻譯,除了基于噪聲信道(xn do)理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在1996年 提出(t ch)自然語言處理中“最大熵方法”(Maximum Entropy Approach)。德國人奧赫 (Franz Joseph Och)等發(fā)現(xiàn), 把IBM公司的統(tǒng)計機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有降低,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。 統(tǒng)計型機(jī)器翻譯取得了一定的成績,然而純統(tǒng)計設(shè)計卻不能解決所有困難。統(tǒng)計型的方法不考慮語言的語義、語法因素,單純用數(shù)學(xué)的方法來處理語言問題,有著巨大的局限性。于是人們開始

13、探索基于統(tǒng)計方法和其它翻譯方法的聯(lián)合應(yīng)用。如統(tǒng)計的和基于實例的機(jī)器翻譯系統(tǒng),統(tǒng)計的和基于規(guī)則的機(jī)器翻譯系統(tǒng),等等。2. 綜合類型的機(jī)器翻譯系統(tǒng):以上三個基本機(jī)器翻譯系統(tǒng)各有優(yōu)勢和長處,同時又不可避免的具有某種缺陷和局限性。如基于規(guī)則的機(jī)器翻譯系統(tǒng)(RBMT)可以準(zhǔn)確的描述語言學(xué)特征和規(guī)律,然而制定適用和完備的語言規(guī)則卻不是一件容易的事;基于實例的機(jī)器翻譯系統(tǒng)(EBMT)可以充分利用已有的翻譯結(jié)果,但是實例庫的維護(hù)需要大量的人工和費用;統(tǒng)計型的機(jī)器翻譯(Statistical MT)可以緩解知識獲取的瓶頸問題,但是純數(shù)學(xué)的方法難于完全解決語言中的復(fù)雜問題。為進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯水平,人們

14、綜合以上幾個基本類型的優(yōu)勢,又發(fā)明了混合型機(jī)器翻譯系統(tǒng)(Hybrid MT),多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT)和提出了基于知識的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT)的理論。 2.1混合型機(jī)器翻譯系統(tǒng)(Hybrid MT):翻譯過程使用兩種或以上機(jī)器翻譯原理。比如:基于規(guī)則的機(jī)器翻譯方法的核心是構(gòu)造完備的、適應(yīng)性較強(qiáng)的規(guī)則系統(tǒng)。如何得到完備和適應(yīng)性強(qiáng)的規(guī)則系統(tǒng)成為研究焦點。使用傳統(tǒng)的方法,語法規(guī)則庫的建立需要大量的人力、物力,大量的語言語法規(guī)則之間往往存在著不可避免的沖突,規(guī)則的完備性和適應(yīng)性不能得到保證。隨著人們翻譯工作的進(jìn)行,生成大量已完成的翻譯結(jié)果,形成

15、大量語料。人們想到了使用統(tǒng)計方法從現(xiàn)有語料中自動提取我們需要的語言語法信息。從實例中抽取語言轉(zhuǎn)換規(guī)則,將基于實例的機(jī)器翻譯作為研究技術(shù)來建立語言規(guī)則基礎(chǔ),而不是單純用來進(jìn)行類比翻譯。通過一個歸納的過程,從大量例句中提出抽象的規(guī)則 4 5。這樣傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法發(fā)展成為以規(guī)則為基礎(chǔ),語料庫為輔助的機(jī)器翻譯方法。這種翻譯模型可以稱之為混合型機(jī)器翻譯系統(tǒng)(Hybrid MT)。 2.2多引擎(ynqng)機(jī)器翻譯系統(tǒng)(Multi-Engine MT):這種機(jī)器翻譯系統(tǒng)的基本思想是幾架機(jī)器翻譯引擎同時進(jìn)行并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的工作原理,給出多個翻譯結(jié)果,然后通過某種

16、機(jī)制或算法篩選并生成最優(yōu)翻譯結(jié)果進(jìn)行輸出。多引擎機(jī)器翻譯系統(tǒng)的一種工作方式如:接收到源文字(wnz)后,先將文字轉(zhuǎn)化為若干文字片段,由多個機(jī)器翻譯引擎進(jìn)行并行翻譯, 各個文字片段均得到多個(du )翻譯結(jié)果, 通過某種機(jī)制選擇最優(yōu)的翻譯片段組成最優(yōu)組合,最后輸出最優(yōu)的翻譯結(jié)果6?;蛘呤墙邮盏皆次淖趾螅啥鄠€機(jī)器翻譯引擎進(jìn)行并行翻譯,得到多個翻譯結(jié)果,然后對各個翻譯結(jié)果進(jìn)行字詞的比較,通過某種假設(shè)檢驗和算法,選擇適當(dāng)?shù)淖衷~翻譯組成最優(yōu)翻譯結(jié)果輸出7。 2.3. 基于知識的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):在機(jī)器翻譯研究中,人們越來越發(fā)現(xiàn)在翻譯過程中正確的理解、領(lǐng)會源語言的重要

17、性。語言有著其復(fù)雜性。其中語言的模糊性是各種機(jī)器翻譯系統(tǒng)所面對的最頑固的難題。語言的模糊性指語言文字同一表層結(jié)構(gòu)對應(yīng)著兩種或兩種以上的深層結(jié)構(gòu),簡單說就是一種形式對應(yīng)著兩種或兩種以上的解釋,必須通過上下文內(nèi)容的提示和綜合知識背景、常識才可能做出正確的詮釋。受人工智能,知識工程的發(fā)展影響,人們開始強(qiáng)調(diào)對源語言更為徹底的理解,提出不僅需要進(jìn)行深層語言分析,還需要進(jìn)行世界知識的積累和處理,建立知識庫,以助于理解語言。通過對世界知識的了解,解決機(jī)器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機(jī)器翻譯所面對的語言的模糊性問題,人們提出了基于知識的機(jī)器翻譯系統(tǒng)。2.3.1基于(jy)語義網(wǎng)的機(jī)器翻譯(

18、Semantic Web based Machine Translation, SWMT):是基于知識的機(jī)器翻譯系統(tǒng)(xtng)的一種實現(xiàn)方式。語義網(wǎng)(Semantic Web),指通過某種技術(shù),將現(xiàn)有網(wǎng)絡(luò)上的知識(zh shi)內(nèi)容轉(zhuǎn)化為機(jī)器可以辨識的內(nèi)容,成為機(jī)器翻譯的“世界知識庫”。這些理論基于Tim Berners-Lee提出的觀點“知識一旦經(jīng)定義和形式化后,便可以通過任意方式訪問”。萬維網(wǎng)最初的設(shè)計是希望它簡單,去中心化并且盡可能的易于互動。網(wǎng)絡(luò)的發(fā)展證明它是一個巨大的成功。然而,網(wǎng)絡(luò)上面的信息都是面向人類大腦的。為了讓計算機(jī)也能夠接受和利用這些信息資源,在新的世紀(jì)一種擴(kuò)展和補(bǔ)充性質(zhì)

19、的技術(shù)出現(xiàn)了, 稱為W3C,Semantic Web3 (三維語義網(wǎng))。三維語義網(wǎng)絡(luò)的基礎(chǔ)技術(shù)是數(shù)據(jù)格式的“資源描述構(gòu)架”( Resource DescriptionFramework,RDF), 它定義了一種結(jié)構(gòu),用一種自然的方式來描述計算機(jī)處理的巨大量的數(shù)據(jù)8。目前人們已經(jīng) 在嘗試將現(xiàn)有的機(jī)器翻譯系統(tǒng)整合入語義網(wǎng),以充分利用世界知識/專家知識, 提高機(jī)器翻譯質(zhì)量9。3語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對應(yīng)的一種機(jī)器翻譯分類,與前面的分類有著不同。但是有著廣泛的應(yīng)用,如日常交談、電話通話、會議講話等對語音交流內(nèi)容的自動翻譯,在實際應(yīng)用中非常重要。語音翻譯

20、在翻譯之前增加了一個語言識別(Speech Recognition)過程,形成正確的文字內(nèi)容輸入,并且在翻譯過程完成后增加了一個語音合成(Speech Synthesis)過程, 形成一個正確的語音內(nèi)容輸出。其中語音識別技術(shù)和語音合成技術(shù)都有著專門研究,這里不再贅述。 參考文獻(xiàn):1 Sato, S and Nagao, M. Towards memory-based translation. Coling, 1990, Vol.3, pp. 247-252 2 Nagao,M. A framework of a mechanical translation between Japanese a

21、nd English by analogy principle. Artificial and Human Intelligence. Amsterdam, North-Holland. A.Elithorn and R.Banerji (eds), 1984, pp. 173-180 3 Nirenburg, S, C. Domashnev and D.J. Grannes. Two approaches to matching in Example -Based Machine Translation. TMI, 1993, pp.47-57 4 Furuse, O and H. Iida. An example-based method for transferdriven machine translation. TMI, 1992, pp.139-1505 Furuse, O and H. Iida. Cooperation between transfer and analysis in exampleb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論