有關(guān)“機(jī)器翻譯”的文獻(xiàn)綜述1_第1頁
有關(guān)“機(jī)器翻譯”的文獻(xiàn)綜述1_第2頁
有關(guān)“機(jī)器翻譯”的文獻(xiàn)綜述1_第3頁
有關(guān)“機(jī)器翻譯”的文獻(xiàn)綜述1_第4頁
有關(guān)“機(jī)器翻譯”的文獻(xiàn)綜述1_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

機(jī)器翻譯機(jī)器翻譯(MachineTranslation),又稱為自動翻譯,是利用計算機(jī)把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語言的過程,它是自然語言處理(NaturalLanguageProcessing)的一個分支,與計算語言學(xué)(ComputationalLinguistics)、自然語言理解(NaturalLanguageUnderstanding)之間存在著密不可分的關(guān)系。步入21世紀(jì)以來,隨著國際互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展和世界經(jīng)濟(jì)一體化的加速,網(wǎng)絡(luò)信息急劇膨脹,國際交流日益頻繁,如何克服語言障礙已經(jīng)成為國際社會共同面對的問題。由于人工翻譯的方式遠(yuǎn)遠(yuǎn)不能滿足需求,利用機(jī)器翻譯技術(shù)協(xié)助人們快速獲取信息,已經(jīng)成為必然的趨勢。一、 機(jī)器翻譯的基礎(chǔ)機(jī)器翻譯的研究是建立在語言學(xué)、數(shù)學(xué)和計算機(jī)科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語言學(xué)家提供適合于計算機(jī)進(jìn)行加工的詞典和語法規(guī)則,數(shù)學(xué)家把語言學(xué)家提供的材料形式化和代碼化,計算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計。缺少上述任何一方面,機(jī)器翻譯就不能實現(xiàn),機(jī)器翻譯效果的好壞,也完全取決于這3個方面的共同努力。二、 機(jī)器翻譯簡史機(jī)器翻譯的研究歷史可以追溯到20世紀(jì)四五十年代。1946年,第一臺現(xiàn)代電子計算機(jī)ENIAC誕生,隨后不久,信息論的先驅(qū)、美國科學(xué)家W.Weaver和英國工程師A.D.Booth在討論電子計算機(jī)的應(yīng)用范圍時,提出了利用計算機(jī)進(jìn)行語言自動翻譯的想法。1949年,W.Weaver發(fā)表《翻譯備忘錄》,正式提出機(jī)器翻譯的思想。走過六十年的風(fēng)風(fēng)雨雨,機(jī)器翻譯經(jīng)歷了一條曲折而漫長的發(fā)展道路,學(xué)術(shù)界一般將其劃分為如下四個階段:1.開創(chuàng)期(1946-1964)1954年,美國喬治敦大學(xué)(GeorgetownUniversity)在IBM公司協(xié)同下,用IBM-701計算機(jī)首次完成了英俄機(jī)器翻譯試驗,向公眾和科學(xué)界展示了機(jī)器翻譯的可行性,從而拉開了機(jī)器翻譯研究的序幕。中國開始這項研究也并不晚,早在1956年,國家就把這項研究列入了全國科學(xué)工作發(fā)展規(guī)劃,課題名稱是“機(jī)器翻譯、自然語言翻譯規(guī)則的建設(shè)和自然語言的數(shù)學(xué)理論”。1957年,中國科學(xué)院語言研究所與計算技術(shù)研究所合作開展俄漢機(jī)器翻譯試驗,翻譯了9種不同類型的較為復(fù)雜的句子。從20世紀(jì)50年代開始到20世紀(jì)60年代前半期,機(jī)器翻譯研究呈不斷上升的趨勢。美國和前蘇聯(lián)兩個超級大國出于軍事、政治、經(jīng)濟(jì)目的,均對機(jī)器翻譯項目提供了大量的資金支持,而歐洲國家由于地緣政治和經(jīng)濟(jì)的需要也對機(jī)器翻譯研究給予了相當(dāng)大的重視,機(jī)器翻譯一時出現(xiàn)熱潮。這個時期機(jī)器翻譯雖然剛剛處于開創(chuàng)階段,但已經(jīng)進(jìn)入了樂觀的繁榮期。2.受挫期(1964-1975)1964年,為了對機(jī)器翻譯的研究進(jìn)展作出評價,美國科學(xué)院成立了語言自動處理咨詢委員會(AutomaticLanguageProcessingAdvisoryCommittee,簡稱ALPAC委員會),開始了為期兩年的綜合調(diào)查分析和測試。1966年11月,該委員會公布了一個題為《語言與機(jī)器》的報告(簡稱ALPAC報告),該報告全面否定了機(jī)器翻譯的可行性,并建議停止對機(jī)器翻譯項目的資金支持。這一報告的發(fā)表給了正在蓬勃發(fā)展的機(jī)器翻譯當(dāng)頭一棒,機(jī)器翻譯研究陷入了近乎停滯的僵局。無獨(dú)有偶,在此期間,中國爆發(fā)了“十年文革”,基本上這些研究也停滯了。機(jī)器翻譯步入蕭條期。3.恢復(fù)期(1975-1989)進(jìn)入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,迫切地需要計算機(jī)來從事翻譯工作。同時,計算機(jī)科學(xué)、語言學(xué)研究的發(fā)展,特別是計算機(jī)硬件技術(shù)的大幅度提高以及人工智能在自然語言處理上的應(yīng)用,從技術(shù)層面推動了機(jī)器翻譯研究的復(fù)蘇,機(jī)器翻譯項目又開始發(fā)展起來,各種實用的以及實驗的系統(tǒng)被先后推出,例如Weinder系統(tǒng)、EURPOTRA多國語翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。而我國在“十年浩劫”結(jié)束后也重新振作起來,機(jī)器翻譯研究被再次提上日程?!?48”工程給予了機(jī)器翻譯研究足夠的重視,80年代中期以后,我國的機(jī)器翻譯研究發(fā)展進(jìn)一步加快,首先研制成功了KY-1和MT/EC863兩個英漢機(jī)譯系統(tǒng),表明我國在機(jī)器翻譯技術(shù)方面取得了長足的進(jìn)步。4.新時期:(1990?現(xiàn)在)隨著Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求,人們對于機(jī)器翻譯的需求空前增長,機(jī)器翻譯迎來了一個新的發(fā)展機(jī)遇。國際性的關(guān)于機(jī)器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星”、“雅信”、“通譯”、“華建”等。在市場需求的推動下,商用機(jī)器翻譯系統(tǒng)邁入了實用化階段,走進(jìn)了市場,來到了用戶面前。三、機(jī)器翻譯的過程整個機(jī)器翻譯的過程可以分為原文分析、原文譯文轉(zhuǎn)換和譯文生成3個階段。在具體的機(jī)器翻譯系統(tǒng)中,根據(jù)不同方案的目的和要求,可以將原文譯文轉(zhuǎn)換階段與原文分析階段結(jié)合在一起,而把譯文生成階段獨(dú)立起來,建立相關(guān)分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時要考慮譯語的特點(diǎn),而在譯語生成時則不考慮原語的特點(diǎn)。在搞多種語言對一種語言的翻譯時,宜于采用這樣的相關(guān)分析獨(dú)立生成系統(tǒng)。也可以把原文分析階段獨(dú)立起來,把原文譯文轉(zhuǎn)換階段同譯文生成階段結(jié)合起來,建立獨(dú)立分析相關(guān)生成系統(tǒng)。在這樣的系統(tǒng)中,原語分析時不考慮譯語的特點(diǎn),而在譯語生成時要考慮原語的特點(diǎn),在搞一種語言對多種語言的翻譯時,宜于采用這樣的獨(dú)立分析相關(guān)生成系統(tǒng)。還可以把原文分析、原文譯文轉(zhuǎn)換與譯文生成分別獨(dú)立開來,建立獨(dú)立分析獨(dú)立生成系統(tǒng)。在這樣的系統(tǒng)中,分析原語時不考慮譯語的特點(diǎn),生成譯語時也不考慮原語的特點(diǎn),原語譯語的差異通過原文譯文轉(zhuǎn)換來解決。在搞多種語言對多種語言的翻譯時,宜于采用這樣的獨(dú)立分析獨(dú)立生成系統(tǒng)。四、主要的機(jī)器翻譯方法評述機(jī)器翻譯的過程一般可簡化為三個階段:原文分析、原文譯文轉(zhuǎn)化和譯文生成。表象上,機(jī)器翻譯的核心問題是翻譯的準(zhǔn)確性;實質(zhì)上,體現(xiàn)在技術(shù)層面則是機(jī)器翻譯系統(tǒng)采用的方法論問題。在方法論層面,機(jī)器翻譯系統(tǒng)可分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者是由詞典和語法規(guī)則庫構(gòu)成翻譯知識庫,后者則是以語料的應(yīng)用為核心,由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識庫。其中,基于語料庫的方法又可以分為基于統(tǒng)計(Statistics-based)的方法和基于實例(Example-based)的方法。換個角度說,基于規(guī)則的方法屬于理性主義范疇,基于語料庫的方法則屬于經(jīng)驗范疇?;仡櫧甑臋C(jī)器翻譯發(fā)展史,翻譯方法論的演變實際上就是“經(jīng)驗”與“理性”的相互“交流”。1.主導(dǎo)地位的基于規(guī)則的方法(1)基于規(guī)則方法的發(fā)展歷程早期的機(jī)器翻譯系統(tǒng)基本上都采用基于規(guī)則的方法。1954年,世界上第一臺機(jī)器翻譯系統(tǒng)IBM701誕生,它只有250條俄語詞匯、6條基本語法規(guī)則以及49個俄語翻譯例句,通過直譯法完成了世界上第一次機(jī)器翻譯實驗。所謂直譯法,即把源語言中的單詞或句子直接替換成相應(yīng)目標(biāo)語的單詞或句子,必要時對詞序進(jìn)行適當(dāng)?shù)恼{(diào)整。直譯法一般是針對特殊的語言對來設(shè)計,系統(tǒng)移植比較困難,缺乏通用性。典型的直譯法翻譯系統(tǒng)是Systran系統(tǒng),它是美國在喬治敦大學(xué)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上進(jìn)一步開發(fā)的,設(shè)計之初只能完成從俄文到英文的翻譯,后來改進(jìn)為可實現(xiàn)多語種之間的互譯。這個系統(tǒng)對機(jī)器翻譯的后續(xù)發(fā)展有著很大的影響,目前仍有不少翻譯系統(tǒng)采用直譯法在直譯法逐步改進(jìn)的同時,基于轉(zhuǎn)換的方法也相伴而生。所謂基于轉(zhuǎn)換,就是對句子結(jié)構(gòu)進(jìn)行層次分析,在詞對詞翻譯的基礎(chǔ)上,根據(jù)不同語言的不同規(guī)則生成相應(yīng)的譯文。這種方法需要三部字典:源語字典、源語—目標(biāo)語雙語字典和目標(biāo)語字典。最直觀的例子就是中英文互譯,中國人的名字是先姓后名,美國人的名字是先名后姓中文句子是主謂賓加名詞短語,英文句子是主謂賓加從句。諸如此類的不同規(guī)則,在轉(zhuǎn)換法的翻譯過程中,都需要通過三部字典中的特定描述才能順利轉(zhuǎn)化。伴隨著直譯法和轉(zhuǎn)換法的發(fā)展,另外一種基于規(guī)則的方法—中間語法應(yīng)運(yùn)而生。它先把源語言分析轉(zhuǎn)換成對所有語言都適合的一種句法—語義表示,再由此轉(zhuǎn)換為目標(biāo)語言。也就是說,基于該方法的翻譯過程包括兩個階段:從源語言到中間語言,再從中間語言到目標(biāo)語言。這種方法有一個典型的好處:節(jié)省開發(fā)費(fèi)用。當(dāng)需要多種語言翻譯的時候,可以直接通過中間語言翻譯到目標(biāo)語言,而不需要每一種語言都設(shè)立一套規(guī)則程序。假如有6種語言需要彼此相互翻譯,采用基于轉(zhuǎn)換的方法需要30個語言轉(zhuǎn)換模塊(每對語言都需要一個模塊),而采用中間語法的系統(tǒng)只需要12個模塊。雖然提出了三種方法,但顯然當(dāng)時的研究者還沒有意識到機(jī)器翻譯的難度,這些簡單的方法對于稍復(fù)雜的句子就已經(jīng)無能為力了。隨著研究的深入,人們逐漸認(rèn)識到:要完成機(jī)器翻譯,計算機(jī)必須能夠在一定程度上理解源語言的句子。與此同時,人工智能這門學(xué)科在20世紀(jì)70年代有了很大的發(fā)展,各種知識表示和知識推理的理論和算法紛紛被研究者提出。人們對自然語言的理解和機(jī)器翻譯的認(rèn)識有了質(zhì)的飛躍。這一階段研究人員對基于規(guī)則的方法進(jìn)行了創(chuàng)新性的改進(jìn),其主要特點(diǎn)是對語言進(jìn)行了深層次的分析、轉(zhuǎn)換和生成,也就是說,翻譯不再是只在句子的表層(詞序列)上進(jìn)行而是在句子的某種更深層結(jié)構(gòu)(例如句法結(jié)構(gòu)、語義結(jié)構(gòu)或知識表示)的層面上進(jìn)行。要實現(xiàn)這一點(diǎn),系統(tǒng)就需要大量的語言知識和翻譯知識,為此,機(jī)器翻譯程序采用了數(shù)據(jù)與程序相分離的存儲形式,語言知識和翻譯知識以數(shù)據(jù)形式存在,而翻譯程序利用這些數(shù)據(jù)進(jìn)行翻譯。這種數(shù)據(jù)最常見的表現(xiàn)形式就是規(guī)則和詞典?;谝?guī)則的機(jī)器翻譯系統(tǒng)在1980年代達(dá)到一個高峰期,市場上涌現(xiàn)出很多基于規(guī)則的機(jī)器翻譯系統(tǒng),其中一些已經(jīng)步入實用化階段。國際上也出現(xiàn)了一些大規(guī)模的研究計劃,例如歐盟的Eurotran項目和日本的亞洲五國語言機(jī)器翻譯項目。即使到目前,大多數(shù)實用型機(jī)器翻譯系統(tǒng)也都是以基于規(guī)則為主。整體而言,基于規(guī)則方法的翻譯系統(tǒng)覆蓋面寬,但譯文質(zhì)量的一致性有待提高。(2)基于規(guī)則方法的現(xiàn)狀縱觀機(jī)器翻譯發(fā)展的歷程,可以看出,機(jī)器翻譯的主流方法一直是基于規(guī)則的方法。國際上有影響的機(jī)器翻譯系統(tǒng)基本上都需要規(guī)則的貢獻(xiàn),即使在多種技術(shù)并存的系統(tǒng)中也要包含規(guī)則,基于規(guī)則的機(jī)器翻譯技術(shù)思想是被普遍接受的、成熟的,也是到目前為止應(yīng)用最廣的方法?;谝?guī)則的機(jī)器翻譯系統(tǒng)就是對語言語句的詞法、語義進(jìn)行分析、判斷和取舍,然后重新排列組合,最后生成等價的目標(biāo)語言?;谝?guī)則的機(jī)器翻譯方法導(dǎo)致了程序工作者和語言工作者的一種合作范式:程序工作者和語言工作者先共同制定數(shù)據(jù)規(guī)范,確定翻譯算法、語言知識和翻譯知識的表示形式,然后程序工作者編寫程序?qū)崿F(xiàn)翻譯算法,語言工作者編寫語言知識和翻譯知識驅(qū)動翻譯算法的運(yùn)行,兩者分工合作,缺一不可。在這種工作范式下,系統(tǒng)翻譯性能通常受到兩方面因素的制約:一是算法的設(shè)計是否合理,另一個是語言知識是否足夠豐富,其中最主要的瓶頸還在于后者。一旦翻譯程序編程結(jié)束,并經(jīng)過調(diào)試穩(wěn)定以后,基本上就不需要再做修改,改進(jìn)翻譯性能的任務(wù)完全落在了語言工作者的身上。對于基于規(guī)則的機(jī)器翻譯系統(tǒng)而言,知識獲取實際上是最大的瓶頸。通常,經(jīng)過一個人一年左右的調(diào)試就能得到一個可以翻譯簡單句子的演示系統(tǒng),但要真正得到一個初步實用的機(jī)器翻譯系統(tǒng),非得要通過一批人經(jīng)年累月的調(diào)試和積累不可。在上述背景下,一方面,研究者們已經(jīng)建立了一定規(guī)模的規(guī)則庫,覆蓋了相當(dāng)多的語言現(xiàn)象。另一方面,基于規(guī)則的機(jī)器翻譯技術(shù)不斷借鑒和融合其他方法的優(yōu)點(diǎn),這些變化主要體現(xiàn)在:在規(guī)則的獲取方面,傳統(tǒng)的規(guī)則方法主要依靠語言學(xué)家的總結(jié)進(jìn)行調(diào)試,而現(xiàn)在更加重視從大規(guī)模語料庫中自動獲取規(guī)則。傳統(tǒng)的規(guī)則方法往往偏重描述粗粒度、全局化的大范圍語言學(xué)規(guī)則知識,而現(xiàn)在則更加重視描述細(xì)粒度、局部的小范圍的語言學(xué)知識,呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢。在知識表示方面,為了以更小的粒度、更加準(zhǔn)確地對翻譯知識進(jìn)行描述,一般要對單純的與上下文無關(guān)的規(guī)則作一些改進(jìn)。改進(jìn)的方法有以下兩種:一種是采用特征結(jié)構(gòu)與合一算法,例如LFG、GPSG等等,這種方法一般要求具有較好的語言學(xué)背景;另外一種是采用詞匯化的方法對規(guī)則加以細(xì)化。傳統(tǒng)的規(guī)則方法采用的往往是非此即彼的確定性原則,系統(tǒng)的魯棒性較差,而現(xiàn)在的規(guī)則系統(tǒng)中一般都引入各種形式的概率或者評分函數(shù),系統(tǒng)的魯棒性有所提高。概率與評分函數(shù)方法的區(qū)別在于:前者一般有比較嚴(yán)格的數(shù)學(xué)模型做基礎(chǔ),概率值的計算要以對大規(guī)模語料庫的統(tǒng)計為依據(jù);后者的主觀性較強(qiáng),評分規(guī)則的確定以及具體規(guī)則的分值都是人為的,人們可以根據(jù)經(jīng)驗進(jìn)行調(diào)整。隨著機(jī)器翻譯研究的不斷深入,規(guī)則方法存在的問題逐漸暴露出來。該方法最大的問題在其知識獲取方面,單純依靠語言工作者人工編寫規(guī)則似乎永遠(yuǎn)也不能滿足實際應(yīng)用的需要。一個在市場上銷售的機(jī)器翻譯系統(tǒng)通常都要經(jīng)過數(shù)十人乃至數(shù)百人的調(diào)試,但翻譯效果還是遠(yuǎn)遠(yuǎn)不能達(dá)到令人滿意的程度。更為糟糕的是,人工添加規(guī)則的做法導(dǎo)致規(guī)則庫的規(guī)模更大,而系統(tǒng)性能的改進(jìn)則更為困難。因為一方面規(guī)則庫越大,規(guī)則之間的沖突就越多,出現(xiàn)了所謂的“蹺蹺板現(xiàn)象”,系統(tǒng)雖然對某些句子翻譯效果好了,但對另外一些句子的翻譯效果反而差了,系統(tǒng)的整體性能并沒有提高;另一方面,在后面加入的規(guī)則通常都是一些粒度非常小的規(guī)則,只能處理非常個別的語言現(xiàn)象,對系統(tǒng)整體性能的改進(jìn)很小,整個系統(tǒng)的性能提升極為緩慢,而這個時期一些大型的機(jī)器翻譯研究項目也都以失敗而告終?;谝?guī)則的機(jī)器翻譯方法似乎走到了盡頭。2.異軍突起的基于統(tǒng)計的方法基于統(tǒng)計的機(jī)器翻譯方法把機(jī)器翻譯看成是一個信息傳輸?shù)倪^程,用一種信道模型對機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語言句子到目標(biāo)語言句子的翻譯是一個概率問題,任何一個目標(biāo)語言句子都有可能是任何一個源語言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子。因此統(tǒng)計機(jī)器翻譯又可以分為以下幾個問題:模型問題、訓(xùn)練問題、解碼問題。所謂模型問題,就是為機(jī)器翻譯建立概率模型,也就是要定義源語言句子到目標(biāo)語言句子的翻譯概率的計算方法。而訓(xùn)練問題,是要利用語料庫來得到這個模型的所有參數(shù)。所謂解碼問題,則是在已知模型和參數(shù)的基礎(chǔ)上,對于任何一個輸入的源語言句子,去查找概率最大的譯文。實際上,用統(tǒng)計學(xué)方法解決機(jī)器翻譯問題的想法并非是20世紀(jì)90年代的全新思想,1949年W.Weaver就已經(jīng)提出使用這種方法,只是由于喬姆斯基(Chomsky)等人的批判,這種方法很快就被放棄了。批判的理由主要是一點(diǎn):語言是無限的,基于經(jīng)驗主義的統(tǒng)計描述無法滿足語言的實際要求。另外,限于當(dāng)時的計算機(jī)速度,統(tǒng)計的價值也無從談起。而現(xiàn)在,計算機(jī)不論從速度還是從容量方面都有了大幅度的提高,昔日大型計算機(jī)才能完成的工作,今日小型工作站或個人計算機(jī)就可以完成了。此外,統(tǒng)計方法在語音識別、文字識別、詞典編纂等領(lǐng)域的成功應(yīng)用也表明這一方法在語言自動處理領(lǐng)域還是很有成效的。統(tǒng)計機(jī)器翻譯方法的數(shù)學(xué)模型是由國際商業(yè)機(jī)器公司(IBM)的研究人員提出的。統(tǒng)計機(jī)器翻譯的基本思想是:從理論上說,這種模型只考慮了詞與詞之間的線性關(guān)系,沒有考慮句子的結(jié)構(gòu)。這在兩種語言的語序相差較大時效果可能不會太好。如果在考慮語言模型和翻譯模型時將句法結(jié)構(gòu)或語義結(jié)構(gòu)考慮進(jìn)來,應(yīng)該會得到更好的結(jié)果。統(tǒng)計方法的興起緣于上世紀(jì)九十年代以來互聯(lián)網(wǎng)的廣泛應(yīng)用,整個社會的信息呈現(xiàn)爆炸趨勢,機(jī)器翻譯的需求凸顯。與此同時,人們對于提高機(jī)器翻譯的質(zhì)量和速度有了新的想法,基于“統(tǒng)計”的方法備受關(guān)注。參與這個領(lǐng)域研究的人數(shù)和發(fā)表論文的數(shù)量都呈指數(shù)型增長。統(tǒng)計機(jī)器翻譯技術(shù)本身也經(jīng)過了一個不斷發(fā)展的過程,統(tǒng)計集群翻譯的模型框架從早期的噪聲信道模型發(fā)展到目前普遍采用的對數(shù)線性模型,其中最主要的統(tǒng)計翻譯模型也從早期的基于詞的模型發(fā)展到了目前主流的基于短語的模型,以及目前很多人都在進(jìn)行的基于句法的統(tǒng)計翻譯模型研究。目前,Google的在線翻譯已為人熟知,其背后的技術(shù)即為基于統(tǒng)計的機(jī)器翻譯方法,基本運(yùn)行原理是通過搜索大量的雙語網(wǎng)頁內(nèi)容,將其作為語料庫,然后由計算機(jī)自動選取最為常見的詞與詞的對應(yīng)關(guān)系,最后給出翻譯結(jié)果。不可否認(rèn),Google采用的技術(shù)是先進(jìn)的,但它還是經(jīng)常鬧出各種“翻譯笑話”。其原因在于:基于統(tǒng)計的方法需要大規(guī)模雙語語料,翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的多少,而翻譯質(zhì)量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力。基于統(tǒng)計的方法雖然不需要依賴大量知識,直接靠統(tǒng)計結(jié)果進(jìn)行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此目前通用領(lǐng)域的機(jī)器翻譯系統(tǒng)很少以統(tǒng)計方法為主。3.另辟蹊徑的基于實例的方法與統(tǒng)計方法相同,基于實例的機(jī)器翻譯方法也是一種基于語料庫的方法,其基本思想由日本著名的機(jī)器翻譯專家長尾真提出,他研究了外語初學(xué)者的基本模式,發(fā)現(xiàn)初學(xué)外語的人總是先記住最基本的英語句子和對應(yīng)的日語句子,而后做替換練習(xí)。參照這個學(xué)習(xí)過程,他提出了基于實例的機(jī)器翻譯思想,即不經(jīng)過深層分析,僅僅通過已有的經(jīng)驗知識,通過類比原理進(jìn)行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標(biāo)語言短語,最后把這些短語合并成長句。對于實例方法的系統(tǒng)而言,其主要知識源就是雙語對照的實例庫,不需要什么字典、語法規(guī)則庫之類的東西,核心的問題就是通過最大限度的統(tǒng)計,得出雙語對照實例庫?;趯嵗臋C(jī)器翻譯對于相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規(guī)模的增加,其作用也越來越顯著。對于實例庫中的已有文本,可以直接獲得高質(zhì)量的翻譯結(jié)果。對與實例庫中存在的實例十分相似的文本,可以通過類比推理,并對翻譯結(jié)果進(jìn)行少量的修改,構(gòu)造出近似的翻譯結(jié)果。這種方法在初推之時,得到了很多人的推崇。但一段時期后,問題出現(xiàn)了。由于該方法需要一個很大的語料庫作為支撐,語言的實際需求量非常龐大。但受限于語料庫規(guī)模,基于實例的機(jī)器翻譯很難達(dá)到較高的匹配率,往往只有限定在比較窄的或者專業(yè)的領(lǐng)域時,翻譯效果才能達(dá)到使用要求。因而到目前為止,還很少有機(jī)器翻譯系統(tǒng)采用純粹的基于實例的方法,一般都是把基于實例的機(jī)器翻譯方法作為多翻譯引擎中的一個,以提高翻譯的正確率。4.各有長短融合使用應(yīng)該說,無論是直譯法、轉(zhuǎn)換法、中間語法,還是實例法和統(tǒng)計法,都是各有長短。作為理性主義范疇,前面三者屬于基于規(guī)則的方法。它的典型缺點(diǎn)是技術(shù)粒度太大,即計算機(jī)語言無法完全描述實際語言組合中無限豐富的規(guī)則。而作為經(jīng)驗主義范疇,后面兩者屬于基于語料庫的方法,其典型缺點(diǎn)是數(shù)據(jù)稀疏。也就是說,由于語言的無限性,任何高性能的計算機(jī)都無法統(tǒng)計出所有短語的使用情況,總是會存在疏漏。隨著這些方法的各自缺陷逐步為人們所認(rèn)知,自上世紀(jì)90年代以來,機(jī)器翻譯系統(tǒng)的實現(xiàn)越來越多地集成了不同的方法和策略,基于單一方法的產(chǎn)品越來越少。其中最具有代表性的無疑是尼倫伯格提出的多引擎機(jī)器翻譯系統(tǒng),即系統(tǒng)中集成多種機(jī)器翻譯的實現(xiàn)方法,每種方法構(gòu)成的翻譯模塊作為一個引擎,多個引擎協(xié)同配合,共同完成翻譯工作。在今后的機(jī)器翻譯研究中,多種方法互相借鑒,互相融合的趨勢會越來越明顯?;谝?guī)則的方法與基于語料庫的方法相結(jié)合,機(jī)器翻譯與翻譯記憶相結(jié)合,很可能是今后研究發(fā)展的主流方向。五、中國的在線機(jī)器翻譯鑒于機(jī)器翻譯仍具相當(dāng)市場,中國涉足這一領(lǐng)域的廠商也不一而足。目前,國內(nèi)市場上的翻譯軟件產(chǎn)品可以劃分為四大類:全文翻譯(專業(yè)翻譯)、在線翻譯、漢化軟件和電子詞典。全文翻譯軟件以中軟“譯星”以及“雅信CAT2.5”為代表;在線翻譯軟件主要以“金山快譯.net2001”、華建的“翻譯網(wǎng)上通”為代表;漢化類翻譯軟件主要以“東方快車3000”為代表;詞典工具以“金山詞霸.net2001”為主要代表。由于機(jī)器翻譯在今后需要滿足人們在浩瀚的互聯(lián)網(wǎng)上方便地進(jìn)行信息搜集的需求,于是很多翻譯開發(fā)者在翻譯準(zhǔn)確度上下工夫的同時,開始注重結(jié)合用戶的使用領(lǐng)域并進(jìn)行方向性的開發(fā)。根據(jù)目前的市場發(fā)展看來,在新一輪的競賽中,在線翻譯前景十分看好。目前,中國的網(wǎng)民已超4億,并繼續(xù)以極快速度增長。六、機(jī)器翻譯的質(zhì)量問題及開發(fā)瓶頸很多人對機(jī)器翻譯有誤解,他們認(rèn)為機(jī)器翻譯偏差大,不能幫人們解決任何問題。其實其誤差在所難免,原因在于,機(jī)器翻譯運(yùn)用語言學(xué)原理,機(jī)器自動識別語法,調(diào)用存儲的詞庫,自動進(jìn)行對應(yīng)翻譯,但是因語法、詞法、句法發(fā)生變化或者不規(guī)則,出現(xiàn)錯誤是難免的,比如《大話西游》中“給我一個殺你的理由,先”之類狀語后置的句子。機(jī)器畢竟是機(jī)器,沒有人對語言的特殊感情,它怎么會感受“最是那一低頭的溫柔,像一朵水蓮花不勝涼風(fēng)的嬌羞”的韻味?畢竟?jié)h語因其詞法、語法、句法的變化及其語境的更換,其意思大相徑庭,就連很多國人都是丈二和尚——摸不著頭腦,就別說機(jī)器了。機(jī)器翻譯的開發(fā)瓶頸可歸結(jié)為以下幾個方面:1.漢語言中存在一些不利于機(jī)器翻譯的特點(diǎn)將表達(dá)靈活多變的漢語通過機(jī)器自動翻譯的方式轉(zhuǎn)化為語法邏輯嚴(yán)謹(jǐn)?shù)挠⒄Z,在詞法、句法和語義三個層面上都存在諸多不利因素。詞法層面上,漢語中存在很多兼類詞、離合詞、組合詞和多義詞,要實現(xiàn)它們的正確翻譯,僅僅根據(jù)詞性、詞義執(zhí)行詞的轉(zhuǎn)換是遠(yuǎn)遠(yuǎn)不夠的,還需要從語義方面加以理解,大大增加了系統(tǒng)的開發(fā)難度。同時,漢語言中詞與詞之間沒有詞界,這給機(jī)器進(jìn)行詞語切分造成了很大的麻煩,極大地影響了翻譯效果。句法層面上,連動句式、兼語句式、無主句、形容詞謂語句及名詞謂語句等的大量應(yīng)用妨礙了機(jī)器正確判斷句子的結(jié)構(gòu)、成分,影響了翻譯結(jié)果的準(zhǔn)確性和可讀率。語義層面上,漢語言中很多表達(dá)沒有明顯的時態(tài)標(biāo)志、名詞也沒有明顯的單復(fù)數(shù)標(biāo)志,需要機(jī)器根據(jù)語境、語義判定,但這是絕大多數(shù)漢英機(jī)譯系統(tǒng)難以實現(xiàn)的。除此之外,省略結(jié)構(gòu)、意譯表達(dá)方式的存在也給機(jī)器翻譯帶來了新的難度。2.知識抽取不易一般的機(jī)器翻譯系統(tǒng)至少要有一、二十萬條的詞匯,一、兩千條分析規(guī)則,以及一、兩千組轉(zhuǎn)換規(guī)則才足敷使用。在這些繁瑣知識的抽取過程中,如何使其達(dá)到相當(dāng)?shù)暮w面,并且在不斷更新的過程中仍然保持這些知識的一致性;如何把這些詞典資料加以完善,且使里面的規(guī)則保持一致,不互相沖突,是個非常耗時耗力、高成本、高難度的工程問題。在后續(xù)的系統(tǒng)維護(hù)和完善中,這個問題也同樣存在。3.單向式的系統(tǒng)設(shè)計漢英機(jī)器翻譯中存在的另一個問題,在于傳統(tǒng)的機(jī)器翻譯系統(tǒng)是一個單向式的設(shè)計。由于傳統(tǒng)的轉(zhuǎn)換式機(jī)器翻譯是遵循“分析”、“轉(zhuǎn)換”、“生成”這三個步驟一路走下來的,這就使得“轉(zhuǎn)換”和“生成”帶有了濃厚的原始語言色彩。因此,漢英翻譯系統(tǒng)的輸出結(jié)果通常都是漢語式的英語,換言之,英文的生成語法變成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論