【碩士論文】_融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究_第1頁(yè)
【碩士論文】_融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究_第2頁(yè)
【碩士論文】_融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究_第3頁(yè)
【碩士論文】_融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究_第4頁(yè)
【碩士論文】_融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、摘摘摘要要要機(jī)器翻譯是自然語(yǔ)言處理領(lǐng)域中最困難的問(wèn)題之一,具有重大的研究?jī)r(jià)值和實(shí)用價(jià)值。翻譯模板作為一種有效的知識(shí)表示,可以為機(jī)器翻譯提供翻譯知識(shí)源?;诮y(tǒng)計(jì)的機(jī)器翻譯是近年來(lái)機(jī)器翻譯研究的熱點(diǎn),通過(guò)對(duì)在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中融入翻譯模板相關(guān)技術(shù)的研究,能夠優(yōu)化機(jī)器翻譯系統(tǒng)的知識(shí)表示,提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。本文的研究主要分為三個(gè)部分:統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中一類翻譯模板的自動(dòng)抽取和應(yīng)用(改進(jìn)的調(diào)序翻譯模板的抽取和應(yīng)用),對(duì)自動(dòng)抽取的翻譯模板的評(píng)價(jià)和應(yīng)用(基于熵的翻譯模板的評(píng)價(jià)和應(yīng)用),統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中非自動(dòng)抽取翻譯模板的應(yīng)用(人工書(shū)寫(xiě)翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的應(yīng)用)。具體來(lái)說(shuō),取得的成果

2、主要有以下幾方面:1、改進(jìn)的調(diào)序翻譯模板的抽取和應(yīng)用在翻譯模板的自動(dòng)抽取中,常常采用一些啟發(fā)式限制來(lái)限制抽取出的翻譯模板集的數(shù)量。這些限制保證了抽取和翻譯的效率,但是也過(guò)濾了一些重要的翻譯模板,影響了翻譯質(zhì)量,尤其影響機(jī)器翻譯中調(diào)序的效果。本文提出了一種輕量級(jí)的改進(jìn)的調(diào)序翻譯模板自動(dòng)抽取方法。該方法從語(yǔ)料庫(kù)中抽取與調(diào)序有關(guān)的翻譯模板,并加入原有的翻譯模板集合中。抽取出的調(diào)序翻譯模板能夠彌補(bǔ)現(xiàn)有系統(tǒng)翻譯模板的不足,并且實(shí)現(xiàn)簡(jiǎn)單,不增加過(guò)多的系統(tǒng)開(kāi)銷(xiāo)。實(shí)驗(yàn)證明,加入該方法抽取的調(diào)序翻譯模板后,提高了層次短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的調(diào)序和翻譯質(zhì)量。2、基于熵的翻譯模板的評(píng)價(jià)和應(yīng)用由于翻譯模板的數(shù)量較多,質(zhì)

3、量參差不齊,需要對(duì)其進(jìn)行評(píng)價(jià)和過(guò)濾,尤其對(duì)于實(shí)用機(jī)器翻譯系統(tǒng)。本文采用了基于變量熵的對(duì)于翻譯模板的評(píng)價(jià)標(biāo)準(zhǔn),對(duì)自動(dòng)抽取的翻譯模板進(jìn)行自動(dòng)評(píng)價(jià),并根據(jù)該評(píng)價(jià)過(guò)濾統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)使用的翻譯模板。我們還將變量熵作為一個(gè)特征加入統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,幫助翻譯模板的選取。實(shí)驗(yàn)證明,使用變量熵作為評(píng)價(jià)標(biāo)準(zhǔn)能夠有效地實(shí)現(xiàn)翻譯模板的過(guò)濾,變量熵作為一個(gè)特征對(duì)于翻譯過(guò)程中翻譯模板的選擇也有幫助。3、人工書(shū)寫(xiě)翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的應(yīng)用人工書(shū)寫(xiě)的翻譯模板是人類語(yǔ)言的重要資源,它們能夠準(zhǔn)確捕捉翻譯對(duì)之間的關(guān)系,反映句子的主干信息。雖然人工書(shū)寫(xiě)的翻譯模板成本較高,但是在機(jī)器翻譯系統(tǒng)中,尤其在特定領(lǐng)域的機(jī)器翻譯系統(tǒng)

4、中,它們是重要的知識(shí)源。本文提出了一種將人工書(shū)寫(xiě)翻譯模板應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方法,將人工書(shū)寫(xiě)的翻譯模板視為可信度較高的翻譯模板,利用統(tǒng)計(jì)機(jī)器翻譯的對(duì)數(shù)線性模型在翻譯過(guò)程中動(dòng)態(tài)匹配和選擇要使用的翻譯模板。實(shí)驗(yàn)表明,這種方法能夠提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。iv融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究關(guān)鍵詞:翻譯模板,機(jī)器翻譯,統(tǒng)計(jì)機(jī)器翻譯abstractapplicationsoftranslationtemplatesinstatisticalmachinetranslationshucaidirectedbyyajuanluasoneofthemostdifcultproblemsinnat

5、urallanguageprocessing,machinetranslationhasgreatsignicanceinresearchandpracticaluse.translationtemplate(rule),asaneffec-tiveknowledgerepresentation,couldservethemachinetranslationtaskastheknowledgesource.statisticalmachinetranslationisahotresearchareainrecentmachinetransla-tionresearch.researchonth

6、eapplicationoftranslationtemplatesinstatisticalmachinetranslationsystemscouldoptimizetheknowledgerepresentation,andthusimprovethetranslationqualityofstatisticalmachinetranslationsystems.inthisdissertation,wepresenttheresearchresultsonthestatisticalmachinetransla-tiontechnologiesincorporatingthetrans

7、lationtemplates.therearethreeaspectswefocuson:theextractionoftheimprovedreorderingtranslationrules;theevaluationandlteringoftranslationtemplatesbasedonentropy;theapplicationofhuman-writtentemplatesinthestatisticalmachinetranslationsystems.ourmaincontributionsareasfollows:1automaticextractionofimprov

8、edreorderingtranslationrulesintheautomaticextractionoftranslationtemplates,therearegenerallysomeheuristicconstraintstorestrictthenumberofthetranslationruleset.althoughtheseconstraintsmayensuretheefciencyoftheextractionanddecoding,theyalsoltersomeusefultranslationpatterns,duringwhichmighthurtthetrans

9、lationperformance,especiallythereorderingperformance.weproposealight-weightedmethodtoautomaticallyextracttheimprovedreorderingtranslationrules.thismethodextractssometranslationtemplatesforreorder-ingfromthecorpus,andaddsthemtotheoriginaltranslationruleset.thismethod,withasimpleimplementation,couldim

10、provethetranslationqualityofstatisticalmachinetrans-lationsystemswithoutaddingtoomuchcosttothesystem.experimentsshowthatthereorderingandtranslationqualityofhierarchicalphrase-basedmachinetranslationsystemisimprovedafteraddingtheimprovedreorderingtranslationrules.2evaluationandlteringoftranslationtem

11、platesbasedonentropysincethequantityoftranslationtemplatesislarge,andtheirqualitiesaregenerallydifferent,itisnecessarytondsomewaytoevaluatethetranslationtemplates,andl-terthetranslationtemplatesusedinstatisticalmachinetranslationsystemsbasedontheirvi融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究scores,especiallyinpracticalmachi

12、netranslationsystems.inthisdissertation,weauto-maticallyevaluatethetranslationtemplatesextractedbasedonvariableentropy.thecri-terionmeasuresgeneralizationabilityofthetranslationtemplates.wealsousethevalueofthiscriterionasafeatureinthestatisticalmachinetranslationsystemstohelpselectthetranslationtemp

13、lates.experimentsshowthatthevariableentropyisaneffectivecriteriontolterthetranslationtemplates.variableentropyisalsohelpfulasafeatureduringtheselectionoftemplatesduringtranslation.3applicationofhuman-writtentranslationtemplatesinthestatisticalmachinetranslationsystemstranslationtemplateswrittenbyhum

14、anareimportantresourcesofhumanlanguage.theycouldaccuratelycapturethecorrespondencesbetweenlanguagepairs,andreectthestructuralinformationofthesentences.althoughthetranslationtemplateswrittenbyhumanhaveahighcost,theyaresignicantknowledgesourcesinmachinetranslationsystems,especiallyintranslationsystems

15、forspecicdomains.wepresentamethodtoapplythehuman-writtentranslationtemplatestothestatisticalmachinetranslationsys-tems.inthismethod,weusethehuman-writtentranslationtemplatesastranslationtem-plateswithhighcredibility,andincorporatethemintothetranslationprocess.log-linearmodel,whichisoftenusedinstatis

16、ticalmachinetranslation,isusedtomatchandselectthetranslationtemplatesdynamically.experimentsshowthatthismethodwouldimprovethetranslationqualityofstatisticalmachinetranslation.keywords:translationtemplates;machinetranslation;statisticalmachinetranslation目目目錄錄錄摘要iiiabstractv目錄vii第一章引言11.1研究背景及意義.11.2翻

17、譯模板簡(jiǎn)介.11.2.1機(jī)器翻譯系統(tǒng)與翻譯模板.11.2.2翻譯模板的特點(diǎn)和形式定義.21.3國(guó)內(nèi)外研究現(xiàn)狀分析.41.3.1機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯的發(fā)展.41.3.2翻譯模板自動(dòng)抽取相關(guān)研究.61.3.3翻譯模板在統(tǒng)計(jì)機(jī)器翻譯中的使用相關(guān)研究.71.4主要的研究目標(biāo)和內(nèi)容.81.5論文的組織結(jié)構(gòu).8第二章融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)的研究框架92.1基本框架.92.2任務(wù)分析與界定.102.2.1改進(jìn)的調(diào)序翻譯模板的抽取和應(yīng)用.102.2.2基于熵的翻譯模板的評(píng)價(jià)及應(yīng)用.102.2.3人工書(shū)寫(xiě)翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的應(yīng)用.112.3本章小結(jié).11第三章改進(jìn)的調(diào)序翻譯模板的抽取和應(yīng)用1

18、33.1相關(guān)工作.133.1.1簡(jiǎn)單調(diào)序方法.133.1.2詞匯化調(diào)序模型.133.1.3句法調(diào)序模型.143.1.4基于翻譯模板調(diào)序.14viii融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究3.1.5小結(jié).143.2改進(jìn)的調(diào)序模板抽取.143.2.1層次短語(yǔ)翻譯模型模板抽取和使用.143.2.2改進(jìn)調(diào)序翻譯模板.163.2.3改進(jìn)調(diào)序翻譯模板的抽取.203.3改進(jìn)調(diào)序模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的使用.213.4改進(jìn)調(diào)序模板的實(shí)驗(yàn)結(jié)果及分析.223.4.1數(shù)據(jù)和系統(tǒng)介紹.223.4.2實(shí)驗(yàn)結(jié)果與分析.233.5本章小結(jié).25第四章基于熵的翻譯模板的評(píng)價(jià)和應(yīng)用274.1相關(guān)工作.274.2基于熵的翻譯模板的

19、評(píng)價(jià).274.2.1翻譯模板變量熵簡(jiǎn)介.274.2.2翻譯模板的評(píng)價(jià)和過(guò)濾.294.3變量熵的應(yīng)用.304.4實(shí)驗(yàn)結(jié)果.304.4.1數(shù)據(jù)和系統(tǒng)介紹.304.4.2實(shí)驗(yàn)結(jié)果與分析.314.5本章小結(jié).34第五章人工書(shū)寫(xiě)翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的應(yīng)用355.1相關(guān)工作.355.1.1人工書(shū)寫(xiě)翻譯模板與自動(dòng)抽取翻譯模板.355.1.2人工書(shū)寫(xiě)翻譯模板的應(yīng)用.365.2人工書(shū)寫(xiě)模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的應(yīng)用.365.2.1人工書(shū)寫(xiě)翻譯模板簡(jiǎn)介.365.2.2模板匹配算法實(shí)現(xiàn).375.3融合人工書(shū)寫(xiě)翻譯模板的統(tǒng)計(jì)機(jī)器翻譯解碼.395.3.1統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的對(duì)數(shù)線性模型.395.3.2融合人工翻

20、譯模板的解碼方法.395.4實(shí)驗(yàn)結(jié)果分析.41目錄ix5.4.1數(shù)據(jù)和系統(tǒng)介紹.415.4.2實(shí)驗(yàn)結(jié)果及分析.425.5本章小結(jié).43第六章總結(jié)與展望456.1總結(jié).456.2展望.45參考文獻(xiàn)47簡(jiǎn)歷55致謝57表表表格格格3.1不同初始短語(yǔ)長(zhǎng)度限制時(shí)的翻譯模板數(shù)量(抽取于fbis語(yǔ)料).173.2圖3.3抽取的調(diào)序翻譯模板.213.3開(kāi)發(fā)集和測(cè)試集的統(tǒng)計(jì)數(shù)據(jù).233.4翻譯模板的統(tǒng)計(jì)數(shù)據(jù).233.5實(shí)驗(yàn)中的bleu值%(不區(qū)分大小寫(xiě))(*:置信水平為0.99的統(tǒng)計(jì)顯著性).243.6去除各種調(diào)序翻譯模板和匹配限制后的bleu%值(不區(qū)分大小寫(xiě)))243.7翻譯結(jié)果對(duì)比.244.1開(kāi)發(fā)集和測(cè)

21、試集的統(tǒng)計(jì)數(shù)據(jù).314.2用模板頻率過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(新聞?lì)I(lǐng)域).314.3用模板頻率過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(專利領(lǐng)域).324.4用樸素方法過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(新聞?lì)I(lǐng)域).324.5用樸素方法過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(專利領(lǐng)域).324.6用考慮同性質(zhì)詞的方法過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(新聞?lì)I(lǐng)域).334.7用考慮同性質(zhì)詞的方法過(guò)濾翻譯模板后的實(shí)驗(yàn)結(jié)果(專利領(lǐng)域).334.8過(guò)濾后翻譯模板數(shù)量對(duì)比.334.9加入變量熵特征后的新聞?lì)I(lǐng)域?qū)嶒?yàn)結(jié)果.344.10加入變量熵特征后的專利領(lǐng)域?qū)嶒?yàn)結(jié)果.345.1人工書(shū)寫(xiě)翻譯模板和自動(dòng)抽取翻譯模板的特性對(duì)比.355.2開(kāi)發(fā)集和測(cè)試集模板的人

22、工書(shū)寫(xiě)模板匹配情況.425.3實(shí)驗(yàn)結(jié)果對(duì)比.42插插插圖圖圖2.1翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中應(yīng)用的基本流程.93.1語(yǔ)言對(duì)之間的關(guān)系:正序.173.2語(yǔ)言對(duì)之間的關(guān)系:逆序.183.3一個(gè)調(diào)序?qū)嵗系恼{(diào)序翻譯模板抽取.214.1翻譯模板抽取圖例.285.1人工書(shū)寫(xiě)模板匹配過(guò)程圖.385.2融合人工書(shū)寫(xiě)翻譯模板的統(tǒng)計(jì)機(jī)器翻譯總體流程圖.405.3融合模板匹配的改進(jìn)cky算法偽代碼.415.4實(shí)驗(yàn)翻譯結(jié)果對(duì)比.43第第第一一一章章章引引引言言言1.1研研研究究究背背背景景景及及及意意意義義義隨著國(guó)內(nèi)外政治、經(jīng)濟(jì)、文化、科技等方面交流的日益頻繁,國(guó)家與國(guó)家之間的交流越來(lái)越重要,因此對(duì)于語(yǔ)言翻譯的需

23、求越來(lái)越多。特別是近年來(lái),互聯(lián)網(wǎng)迅速普及,極大地促進(jìn)了世界各地人們的交流,而這些交流經(jīng)常需要通過(guò)不同語(yǔ)言之間的互譯來(lái)完成。相對(duì)于人工翻譯,機(jī)器翻譯具有速度快,成本低,易配置的優(yōu)點(diǎn)。因此,近年來(lái)機(jī)器翻譯在國(guó)內(nèi)外得到了蓬勃發(fā)展,機(jī)器翻譯系統(tǒng)也逐漸走向?qū)嵱没C(jī)器翻譯系統(tǒng)向?qū)嵱孟到y(tǒng)的發(fā)展對(duì)機(jī)器翻譯系統(tǒng)的準(zhǔn)確率,可擴(kuò)展性,速度等特性都提出了更高的要求。能夠進(jìn)行機(jī)器翻譯的前提之一是能從語(yǔ)言現(xiàn)象中總結(jié)出用于指導(dǎo)翻譯過(guò)程的知識(shí)。這些知識(shí)描述從一種語(yǔ)言翻譯到另一種語(yǔ)言時(shí)所需遵循的限制和對(duì)應(yīng)關(guān)系。在機(jī)器翻譯的過(guò)程中,我們先讓計(jì)算機(jī)”學(xué)習(xí)”到這些知識(shí)和它們的應(yīng)用范圍,然后讓計(jì)算機(jī)利用這些知識(shí)進(jìn)行翻譯。這些知識(shí)通常

24、按表示方法的不同分為字典,語(yǔ)料實(shí)例庫(kù),轉(zhuǎn)換規(guī)則,翻譯模板等。翻譯模板(1.2節(jié))作為一種有效的翻譯知識(shí)表示形式,在機(jī)器翻譯過(guò)程中發(fā)揮了重要作用。翻譯模板的獲取和使用問(wèn)題是機(jī)器翻譯中最核心的問(wèn)題之一,因?yàn)樗砹俗匀徽Z(yǔ)言處理問(wèn)題中一種知識(shí)源的獲取和使用。不同的翻譯系統(tǒng)可能需要不同類型的翻譯模板,但是翻譯模板的獲取,使用等是每個(gè)使用翻譯模板的機(jī)器翻譯系統(tǒng)都必須面對(duì)的問(wèn)題。對(duì)這些問(wèn)題具體方法的研究有助于提高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量,使系統(tǒng)能夠被更好地應(yīng)用。二十一世紀(jì)以來(lái),基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)逐漸成為主流的機(jī)器翻譯系統(tǒng),在研究界和工業(yè)界都顯露出它的重要性?;诮y(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)的翻譯模板使用方便,易于

25、抽取,但是這些翻譯模板通常數(shù)量多,質(zhì)量不統(tǒng)一,占用系統(tǒng)資源多。因此,研究對(duì)翻譯模板抽取過(guò)程,使用方法等的改進(jìn)對(duì)現(xiàn)有基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)具有重要意義。1.2翻翻翻譯譯譯模模模板板板簡(jiǎn)簡(jiǎn)簡(jiǎn)介介介1.2.1機(jī)機(jī)機(jī)器器器翻翻翻譯譯譯系系系統(tǒng)統(tǒng)統(tǒng)與與與翻翻翻譯譯譯模模模板板板按使用的知識(shí)表示的形式劃分,機(jī)器翻譯系統(tǒng)可以分為基于規(guī)則的機(jī)器翻譯系統(tǒng),基于實(shí)例的機(jī)器翻譯系統(tǒng)以及基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)三大類?;谝?guī)則的機(jī)器翻譯是機(jī)器翻譯方法中較傳統(tǒng)的方法,采用規(guī)則作為其知識(shí)表示形式。這些規(guī)則的典型形式是用產(chǎn)生式形式表示的“條件動(dòng)作”對(duì);條件部分表示規(guī)則適用的條件,動(dòng)作部分是進(jìn)行的操作。條件部分可以是詞性,句法

26、結(jié)構(gòu),語(yǔ)義結(jié)構(gòu)等。例如,句法結(jié)構(gòu)生成規(guī)則的條件是給出的源語(yǔ)言的結(jié)構(gòu),動(dòng)作是生成2融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究目標(biāo)語(yǔ)言的句法結(jié)構(gòu)?;谝?guī)則的機(jī)器翻譯系統(tǒng)能夠?qū)⑺惴ê驼Z(yǔ)法分開(kāi)處理,體現(xiàn)語(yǔ)法的翻譯規(guī)則一般由語(yǔ)言學(xué)工作者編寫(xiě),而在翻譯系統(tǒng)中使用這些翻譯規(guī)則的算法一般由程序設(shè)計(jì)人員編寫(xiě)。這樣的處理有利于程序設(shè)計(jì)者和語(yǔ)言學(xué)工作者的分工合作,便于將復(fù)雜的語(yǔ)言結(jié)構(gòu)用直觀的方法表示出來(lái),不依賴于具體的訓(xùn)練語(yǔ)料。但是這樣的規(guī)則比較抽象,容易沖突,系統(tǒng)擴(kuò)展成本高,而且人工書(shū)寫(xiě)的翻譯規(guī)則帶有很大主觀性?;趯?shí)例的機(jī)器翻譯和基于統(tǒng)計(jì)的機(jī)器翻譯都從語(yǔ)料庫(kù)中學(xué)習(xí)知識(shí),即自動(dòng)抽取翻譯知識(shí)。與基于規(guī)則的機(jī)器翻譯不同,它們

27、不依賴于人工編寫(xiě)的翻譯知識(shí),而是可以針對(duì)不同的領(lǐng)域使用不同的語(yǔ)料庫(kù)的知識(shí)。這一做法優(yōu)于基于規(guī)則的機(jī)器翻譯的是,從語(yǔ)料庫(kù)中學(xué)習(xí)翻譯知識(shí)的機(jī)器翻譯系統(tǒng)開(kāi)發(fā)成本低,速度快,學(xué)習(xí)到的知識(shí)也比較客觀。而這種做法的缺點(diǎn)是它們的性能依賴于特定的語(yǔ)料庫(kù),受數(shù)據(jù)稀疏問(wèn)題的影響,學(xué)習(xí)到的知識(shí)的覆蓋粒度通常較人工書(shū)寫(xiě)的小,即概括性不如人工定義的規(guī)則?;趯?shí)例的機(jī)器翻譯通常使用翻譯實(shí)例作為翻譯知識(shí)表示。一個(gè)翻譯實(shí)例是由源語(yǔ)言句子以及它對(duì)應(yīng)的譯文句子組成的,翻譯時(shí),通過(guò)比較待翻譯句子與翻譯實(shí)例庫(kù)中的源語(yǔ)言句子,來(lái)模擬與待翻譯句子相對(duì)應(yīng)的譯文。翻譯模板是介于“翻譯規(guī)則”和“翻譯實(shí)例”之間的翻譯知識(shí)表示形式,可以理解為帶有

28、變量部分的翻譯實(shí)例或由常量和變量組成的翻譯規(guī)則。由于翻譯規(guī)則顆粒度較大,容易過(guò)分抽象,而翻譯實(shí)例顆粒度較小,容易過(guò)分具體,翻譯模板剛好可以結(jié)合這兩種表示的優(yōu)點(diǎn),減少它們的不足之處。翻譯模板可以被用在各種機(jī)器翻譯系統(tǒng)中,尤其適合混合各種翻譯知識(shí)表示的機(jī)器翻譯系統(tǒng)。翻譯模板具有表達(dá)直觀,概括性適中的特點(diǎn)?;诮y(tǒng)計(jì)的機(jī)器翻譯和基于實(shí)例的機(jī)器翻譯使用翻譯模板的方式不同。基于實(shí)例的機(jī)器翻譯通過(guò)尋找從語(yǔ)料庫(kù)中學(xué)習(xí)的翻譯模板進(jìn)行翻譯,而基于統(tǒng)計(jì)的機(jī)器翻譯引入了信源-信道模型以及概率論的知識(shí),為機(jī)器翻譯建立了概率模型,概率模型為翻譯模板的沖突問(wèn)題提供了解決方案?;诮y(tǒng)計(jì)的機(jī)器翻譯使用的翻譯模板是帶有概率信息的

29、,這些信息從語(yǔ)料庫(kù)中采用統(tǒng)計(jì)方法估算出來(lái)。1.2.2翻翻翻譯譯譯模模模板板板的的的特特特點(diǎn)點(diǎn)點(diǎn)和和和形形形式式式定定定義義義根據(jù)一種漢英翻譯模板提取方法(1)中的定義,翻譯模板的廣義定義如下:翻譯模板是一種翻譯規(guī)范,是所有符合某種翻譯規(guī)則的翻譯實(shí)例的集合,對(duì)于集合的每一個(gè)元素,它的源語(yǔ)部分必須按照特定的約束翻譯成目標(biāo)語(yǔ)。本文中的翻譯模板符合上述的廣義定義,同時(shí)進(jìn)一步細(xì)化翻譯模板的定義如下:分別用源語(yǔ)和目標(biāo)語(yǔ)兩種語(yǔ)言書(shū)寫(xiě)的包含常量(具體詞語(yǔ)片段)和變量(可變?cè)~語(yǔ)片段)的字符串,而且這兩個(gè)字符串之間存在對(duì)應(yīng)互譯關(guān)系。第一章引言3一個(gè)翻譯模板包括上述兩個(gè)字符串及其變量之間的映射關(guān)系。一個(gè)漢語(yǔ)-英語(yǔ)的

30、簡(jiǎn)單翻譯模板的例子如下:這是x1。thisisx1.在這個(gè)模板中,中文部分的每一個(gè)漢語(yǔ)常量詞對(duì)應(yīng)于英文部分相應(yīng)位置的英語(yǔ)常量詞,即“這”對(duì)應(yīng)“this”,“是”對(duì)應(yīng)“is”。中文部分中x1和英文部分中x1為變量部分,且中文部分中x1的翻譯是英文部分中的x1。實(shí)際上,翻譯模板的對(duì)應(yīng)關(guān)系可能比這種一一對(duì)應(yīng)復(fù)雜得多。這種對(duì)應(yīng)關(guān)系的復(fù)雜性是使用翻譯模板的優(yōu)點(diǎn)之一,因?yàn)槲覀儾恍枰僭诜g過(guò)程中計(jì)算這些已經(jīng)由翻譯模板描述的對(duì)應(yīng)關(guān)系,而只需要找出正確的翻譯模板。因此,翻譯模板的質(zhì)量對(duì)機(jī)器翻譯的質(zhì)量有重要的影響。上例的簡(jiǎn)單翻譯模板已經(jīng)能夠描述泛化的多種常見(jiàn)句型,例如:介紹人物:這是小張”及其相應(yīng)翻譯“this

31、isxiaozhang”;指代物品“這是一個(gè)蘋(píng)果”及其相應(yīng)翻譯“thisisanapple”;說(shuō)明原因“這是因?yàn)樗麤](méi)來(lái)”及其相應(yīng)翻譯“thisisbecausehedidnotshowup”等。翻譯模板尤其適用于具有固定格式的文本,例如描述特定領(lǐng)域知識(shí)的文本。一個(gè)中藥專利領(lǐng)域的翻譯模板如下:一種具有x1作用的x2及其制備方法ax2havingx1effects,anditspreparingmethod這個(gè)模板能夠覆蓋待翻譯句子的主干內(nèi)容,描述復(fù)雜的雙語(yǔ)之間的順序關(guān)系,并且能夠泛化到多種結(jié)構(gòu)相似句子的翻譯。例如”一種具有補(bǔ)血作用的藥物及其制備方法”,”一種具有防止脫發(fā)作用的沖劑及其制備方法”等

32、。由于這些句式在其領(lǐng)域中出現(xiàn)頻繁,這樣的翻譯模板對(duì)提高翻譯準(zhǔn)確率非常有效。翻譯模板還可以帶有附加匹配條件,提高模板匹配的準(zhǔn)確率。例如限定x1必須是名詞短語(yǔ)。在翻譯過(guò)程中,翻譯模板可以被用來(lái)翻譯未出現(xiàn)在語(yǔ)料庫(kù)中的文本,只要這些文本具有與翻譯模板常量部分相同的結(jié)構(gòu),以及滿足變量部分匹配的條件。這個(gè)特性可以彌補(bǔ)基于語(yǔ)料庫(kù)的翻譯對(duì)語(yǔ)料庫(kù)的依賴性。由于模板的可泛化的特點(diǎn),翻譯模板可以看成對(duì)雙語(yǔ)文本的適當(dāng)概括。使用翻譯模板的機(jī)器翻譯具有可擴(kuò)展性,質(zhì)量高的翻譯模板常常能夠準(zhǔn)確描述句子骨干的翻譯和長(zhǎng)距離調(diào)序的信息。具有相同源語(yǔ)言部分的翻譯模板可以有不同的目標(biāo)語(yǔ)言部分。這與自然語(yǔ)言的可改寫(xiě)性(paraphras

33、ing)有關(guān),即相同的句子可以有不同的表達(dá)方法,也可以有不同的翻譯。所以翻譯模板的源語(yǔ)言部分和目標(biāo)語(yǔ)言部分存在多對(duì)多的對(duì)應(yīng)關(guān)系。在機(jī)器翻譯過(guò)程中,需要根據(jù)不同的上下文,從待翻譯部分的候選模板中選擇最合適的翻譯模板。4融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究按照抽取方式分,翻譯模板可以分為人工書(shū)寫(xiě)翻譯模板和自動(dòng)抽取翻譯模板兩大類。人工書(shū)寫(xiě)翻譯模板是由人編寫(xiě)的,獲得成本高,但準(zhǔn)確率和概括性好。自動(dòng)抽取翻譯模板是根據(jù)一些算法從語(yǔ)料中自動(dòng)抽取的,抽取成本低,但準(zhǔn)確率和概括性通常不如人工書(shū)寫(xiě)模板。在機(jī)器翻譯系統(tǒng)中使用翻譯模板,相關(guān)的問(wèn)題主要有如下幾點(diǎn):1.抽取問(wèn)題。由于翻譯模板質(zhì)量對(duì)機(jī)器翻譯質(zhì)量的影響,怎樣從

34、語(yǔ)料庫(kù)中或其他語(yǔ)言資源中抽取準(zhǔn)確描述語(yǔ)言現(xiàn)象并符合語(yǔ)法句法限制的翻譯模板,是翻譯模板研究必須面對(duì)的問(wèn)題。2.評(píng)價(jià)問(wèn)題。在語(yǔ)料庫(kù)較大時(shí),從語(yǔ)料庫(kù)中自動(dòng)抽取出的翻譯模板數(shù)量較多,質(zhì)量不統(tǒng)一,可能影響機(jī)器翻譯系統(tǒng)的速度和質(zhì)量。對(duì)翻譯模板做評(píng)價(jià),過(guò)濾掉評(píng)價(jià)較低的翻譯模板,保留評(píng)價(jià)較高的翻譯模板能夠降低機(jī)器翻譯系統(tǒng)的資源使用,提高翻譯質(zhì)量。3.應(yīng)用問(wèn)題。翻譯句子時(shí),需要尋找合適的翻譯模板并應(yīng)用,而且正確應(yīng)用的方法與句子結(jié)構(gòu)有關(guān)。在翻譯過(guò)程中消除翻譯模板沖突,尋找正確翻譯模板的應(yīng)用也是亟待解決的問(wèn)題之一。1.3國(guó)國(guó)國(guó)內(nèi)內(nèi)內(nèi)外外外研研研究究究現(xiàn)現(xiàn)現(xiàn)狀狀狀分分分析析析1.3.1機(jī)機(jī)機(jī)器器器翻翻翻譯譯譯和和和統(tǒng)

35、統(tǒng)統(tǒng)計(jì)計(jì)計(jì)機(jī)機(jī)機(jī)器器器翻翻翻譯譯譯的的的發(fā)發(fā)發(fā)展展展機(jī)器翻譯是自然語(yǔ)言處理領(lǐng)域最古老也最具有挑戰(zhàn)性的問(wèn)題之一。機(jī)器翻譯的目的是使用計(jì)算機(jī)把一種自然語(yǔ)言(源語(yǔ)言)翻譯成另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)。它涉及到計(jì)算機(jī)科學(xué),數(shù)學(xué),語(yǔ)言學(xué),認(rèn)知科學(xué)等多種學(xué)科的知識(shí),屬于典型的交叉學(xué)科。在計(jì)算機(jī)學(xué)科中,它屬于人工智能分支,是用機(jī)器模擬人的行為。機(jī)器翻譯在當(dāng)前研究界是一個(gè)熱點(diǎn)問(wèn)題。在剛剛結(jié)束的自然語(yǔ)言處理領(lǐng)域重要學(xué)術(shù)會(huì)議acl年會(huì)(annualmeetingoftheassociationforcomputationallinguistics)上,機(jī)器翻譯的長(zhǎng)文達(dá)到23篇,約占全部長(zhǎng)文(120篇)的1/6。機(jī)

36、器翻譯方法按其知識(shí)表示劃分可以分為規(guī)則機(jī)器翻譯,實(shí)例機(jī)器翻譯,統(tǒng)計(jì)機(jī)器翻譯。規(guī)則機(jī)器翻譯和實(shí)例機(jī)器翻譯在20世紀(jì)比較流行,現(xiàn)在仍有一些公司和研究者使用基于規(guī)則和實(shí)例的機(jī)器翻譯系統(tǒng),如systran公司1。自ibm研究中心的brown等人提出統(tǒng)計(jì)機(jī)器翻譯的模型2以來(lái),統(tǒng)計(jì)機(jī)器翻譯獲得了極快的發(fā)展。統(tǒng)計(jì)機(jī)器翻譯已成為當(dāng)前熱門(mén)的機(jī)器翻譯技術(shù),出現(xiàn)了一系列統(tǒng)計(jì)機(jī)器翻譯方法。按照利用語(yǔ)言學(xué)知識(shí)的粒度來(lái)分,可以進(jìn)一步分成基于詞的統(tǒng)計(jì)機(jī)器翻譯方法,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法,基于句法的統(tǒng)計(jì)機(jī)器翻譯方法,基于語(yǔ)義的統(tǒng)計(jì)機(jī)器翻譯方法等。1/第一章引言5基于詞的統(tǒng)

37、計(jì)機(jī)器翻譯方法始于ibm研究中心為機(jī)器翻譯建立概率模型的研究3。ibm研究中心建立的機(jī)器翻譯模型是信源-信道模型。假設(shè)源語(yǔ)言(f)是由目標(biāo)語(yǔ)言(e)經(jīng)過(guò)噪聲信道傳輸?shù)玫降?,機(jī)器翻譯的目標(biāo)就是將f還原成e,即一個(gè)解碼的過(guò)程?;痉匠淌饺缦拢篹=argmaxep(e)p(f|e)上式是統(tǒng)計(jì)機(jī)器翻譯基本方程式,其中p(e)被稱為語(yǔ)言模型,p(f|e)被稱為翻譯模型。語(yǔ)言模型反映了目標(biāo)語(yǔ)言的流利度,翻譯模型反映了f翻譯到e的準(zhǔn)確度。翻譯時(shí),我們搜索能使p(e)p(f|e)的值最大的e,將它作為最佳翻譯?;谠~的統(tǒng)計(jì)機(jī)器翻譯方法將機(jī)器翻譯問(wèn)題轉(zhuǎn)化成一個(gè)搜索問(wèn)題,但是這個(gè)搜索空間是np完全的4?;诙陶Z(yǔ)的

38、統(tǒng)計(jì)機(jī)器翻譯方法始于franzjosefoch在2002年acl年會(huì)上獲得最佳論文獎(jiǎng)的論文5。不同于信源-信道模型,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯使用對(duì)數(shù)線性模型。信源-信道模型是生成模型(generativemodel),是對(duì)p(ef)的建模,其中f是源語(yǔ)言(可觀察值),e是目標(biāo)語(yǔ)言(未知值)。對(duì)數(shù)線性模型則是對(duì)p(e|f)的建模,即對(duì)目標(biāo)函數(shù)的直接建模。翻譯概率的公式如下:pr(e|f)p1m(e|f)=expmm=1mhm(e,f)eexpmm=1mhm(e,f)其中hm(e,f)為與e,f有關(guān)的某個(gè)特征值,m為與該特征相對(duì)應(yīng)的權(quán)重。對(duì)數(shù)線性模型可以融合多種語(yǔ)言學(xué)特征?;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)

39、以短語(yǔ)(任意連續(xù)詞串)作為翻譯的最小單位,翻譯時(shí)將輸入的句子與短語(yǔ)詞典匹配,選擇最好的短語(yǔ)劃分,連接成目標(biāo)語(yǔ)言的翻譯結(jié)果。基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)已廣泛應(yīng)用于研究界和實(shí)用機(jī)器翻譯系統(tǒng)中。moses26是英國(guó)愛(ài)丁堡大學(xué)philippkoehn牽頭開(kāi)發(fā)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),是目前機(jī)器翻譯研究界和工業(yè)界十分流行的開(kāi)源機(jī)器翻譯系統(tǒng)?;诙陶Z(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法模型訓(xùn)練簡(jiǎn)便,局部翻譯效果較好,但泛化能力較差,長(zhǎng)距離調(diào)序較困難?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法在統(tǒng)計(jì)機(jī)器翻譯中加入了句法限制?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯模型分兩種:基于形式句法的翻譯模型和基于語(yǔ)言學(xué)句法的模型。前者利用形式上的句法學(xué)習(xí)翻譯知識(shí);

40、而后者利用句法分析的知識(shí)?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯解碼方法是在對(duì)源語(yǔ)言分析的同時(shí)產(chǎn)生目標(biāo)語(yǔ)言的結(jié)構(gòu),采用類似句法分析的解碼方式。著名的基于形式句法的統(tǒng)計(jì)機(jī)器翻譯模型有davidchiang提出的層次短語(yǔ)翻譯模型7和吳德凱提出的基于itg句法的翻譯模型8等。著名的基于語(yǔ)2/moses6融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究言學(xué)句法的統(tǒng)計(jì)機(jī)器翻譯模型有劉洋等提出的樹(shù)到串翻譯模型9,南加州大學(xué)研究者提出的串到樹(shù)翻譯模型10,米海濤,黃亮等提出的森林到串的翻譯模型11,以及yuanding等提出的基于依存句法的統(tǒng)計(jì)機(jī)器翻譯模型12,微軟研究院的chrisquirk等提出的基于依存

41、樹(shù)片斷的統(tǒng)計(jì)機(jī)器翻譯模型13等。近年來(lái)基于句法的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)也得到了很大的發(fā)展。johnshopkins大學(xué)牽頭實(shí)現(xiàn)了基于(形式)句法的開(kāi)源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)joshua314,進(jìn)一步推動(dòng)了基于句法的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的實(shí)用化?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯方法的優(yōu)點(diǎn)是加入了語(yǔ)法知識(shí)作為翻譯的限制,能夠更好地處理長(zhǎng)距離調(diào)序等問(wèn)題。目前基于語(yǔ)義的統(tǒng)計(jì)機(jī)器翻譯方法尚未得到充分發(fā)展,基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法和基于句法的統(tǒng)計(jì)機(jī)器翻譯方法,以及它們的混合方法是目前的主流統(tǒng)計(jì)機(jī)器翻譯方法。1.3.2翻翻翻譯譯譯模模模板板板自自自動(dòng)動(dòng)動(dòng)抽抽抽取取取相相相關(guān)關(guān)關(guān)研研研究究究最初的對(duì)翻譯模板的研究是在基于實(shí)例的翻譯研

42、究基礎(chǔ)上進(jìn)行的。日本的kaji等人15在長(zhǎng)尾真教授基于實(shí)例的翻譯研究16的基礎(chǔ)上給出了翻譯模板的定義,并且描述了一種從雙語(yǔ)語(yǔ)料庫(kù)中學(xué)習(xí)翻譯模板的算法。koichitakeda等人在17給出了翻譯模板的一種形式化定義,并給出了相應(yīng)的翻譯算法和算法復(fù)雜性的理論證明。土耳其科學(xué)家h.altayguvenir和ilyascicekli合作對(duì)從語(yǔ)料庫(kù)實(shí)例中抽取翻譯模板的方法進(jìn)行了研究1819,中國(guó)科學(xué)院計(jì)算技術(shù)研究所的張健也在碩士論文20中對(duì)機(jī)器翻譯中泛化翻譯模板的方法進(jìn)行了研究。ibm研究中心的feixia等在21中描述了重寫(xiě)規(guī)則(一種使用句法標(biāo)記的翻譯模板)的抽取方法,并且使用這種重寫(xiě)規(guī)則對(duì)翻譯句子

43、進(jìn)行預(yù)處理。這些方法都希望找出從翻譯實(shí)例中自動(dòng)歸納翻譯模板的方法,主要根據(jù)詞典等語(yǔ)料庫(kù)資源決定翻譯模板的對(duì)應(yīng)關(guān)系。簡(jiǎn)言之,翻譯模板刻畫(huà)了兩種語(yǔ)言在互譯時(shí)的一種結(jié)構(gòu)上的對(duì)應(yīng)關(guān)系,在統(tǒng)計(jì)機(jī)器翻譯中,這樣的結(jié)構(gòu)信息是必要的。在統(tǒng)計(jì)機(jī)器翻譯中融入結(jié)構(gòu)信息的努力始于香港科技大學(xué)吳德凱的研究8。這篇文章引入了新的文法:反向轉(zhuǎn)錄語(yǔ)法(itg)和括號(hào)轉(zhuǎn)錄語(yǔ)法(btg)。itg是一種遵循形式句法的上下文無(wú)關(guān)文法,是一種類似翻譯模板的規(guī)則。在解碼中,遞歸應(yīng)用itg規(guī)則,生成目標(biāo)語(yǔ)言的樹(shù)形結(jié)構(gòu)。btg是itg的簡(jiǎn)化,itg中的非終結(jié)符帶句法標(biāo)記,btg中的非終結(jié)符一律以x表示,給每條規(guī)則賦予先驗(yàn)概率。這些規(guī)則可視為

44、由雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)中抽取的翻譯模板。btg形式句法的限制雖然簡(jiǎn)單,但被實(shí)驗(yàn)證明非常有效。davidchiang的文章22及7為統(tǒng)計(jì)機(jī)器翻譯中的另一類重要模型基于短語(yǔ)的模型引入了翻譯模板的概念。這兩篇文章引入了層次短語(yǔ)(hierarchicalphrase)的概念,提出了層次短語(yǔ)翻譯模型,這種模型也是一種基于形式句法的機(jī)器翻譯模型。層次短語(yǔ)的規(guī)則形式屬于翻譯模板,含非終結(jié)符和終結(jié)符,從雙語(yǔ)對(duì)齊語(yǔ)料中3/ccb/joshua/index.html第一章引言7自動(dòng)獲取,用統(tǒng)計(jì)方法估計(jì)概率。在解碼中,遞歸應(yīng)用這些規(guī)則,用統(tǒng)計(jì)機(jī)器翻譯模型的分?jǐn)?shù)計(jì)算方法選出最好的翻譯?;谡Z(yǔ)言學(xué)

45、句法的模型也引入了翻譯模板的概念。南加州大學(xué)的研究者們?cè)?3中給出了基于語(yǔ)言學(xué)句法的翻譯模板抽取算法的數(shù)學(xué)理論。微軟研究院的quirk等24描述了抽取依存樹(shù)對(duì)-字符串翻譯規(guī)則并應(yīng)用到翻譯中的概念,這種規(guī)則是一種帶句法限制信息的依存樹(shù)到串的翻譯模板。南加州大學(xué)isi研究所的研究者在1025中提出了串到樹(shù)的翻譯模型,根據(jù)目標(biāo)語(yǔ)言端的句法分析結(jié)果抽取翻譯模板,中科院計(jì)算所的劉洋等人在9中提出了一種基于樹(shù)到串對(duì)齊模板的翻譯模型,根據(jù)源語(yǔ)言端的句法分析結(jié)果抽取翻譯模板。在樹(shù)模板的基礎(chǔ)上,中科院計(jì)算所的米海濤等在11提出了森林的概念,在26描述了基于森林到串對(duì)齊模板的抽取方法?;诰浞ǖ慕y(tǒng)計(jì)機(jī)器翻譯模型使

46、用的翻譯模板的共同特點(diǎn)是抽取的翻譯模板數(shù)量較多,并且這些翻譯模板都帶有句法標(biāo)記,翻譯時(shí),需要句法分析的支持。由于用于抽取翻譯模板的語(yǔ)料庫(kù)需要經(jīng)過(guò)預(yù)處理,而現(xiàn)有的語(yǔ)料預(yù)處理方法詞語(yǔ)對(duì)齊,詞法分析,句法分析等可能存在錯(cuò)誤,一些研究者也關(guān)注改進(jìn)翻譯模板的抽取,從而提高翻譯模板質(zhì)量的方法?;谏值慕y(tǒng)計(jì)機(jī)器翻譯26通過(guò)引入更多的句法分析結(jié)果和更簡(jiǎn)潔的表示來(lái)減少句法分析錯(cuò)誤對(duì)翻譯模板抽取造成的影響。rochester大學(xué)的dingliu等人在27中描述了使用em重估樹(shù)到串模板概率的一種方法。1.3.3翻翻翻譯譯譯模模模板板板在在在統(tǒng)統(tǒng)統(tǒng)計(jì)計(jì)計(jì)機(jī)機(jī)機(jī)器器器翻翻翻譯譯譯中中中的的的使使使用用用相相相關(guān)關(guān)關(guān)研

47、研研究究究上一節(jié)介紹了對(duì)翻譯模板抽取的相關(guān)研究。在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中使用翻譯模板同樣有很多相關(guān)問(wèn)題,在本節(jié)中給出一個(gè)簡(jiǎn)單的綜述。翻譯模板的評(píng)價(jià),過(guò)濾是針對(duì)自動(dòng)抽取的翻譯模板數(shù)量過(guò)多,質(zhì)量不統(tǒng)一的問(wèn)題而采取的措施。4.1節(jié)介紹了一些對(duì)翻譯模板評(píng)價(jià)和過(guò)濾的相關(guān)工作。由于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)實(shí)用化的趨勢(shì),很多研究者開(kāi)始關(guān)注在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)上應(yīng)用翻譯模板的具體問(wèn)題,如數(shù)據(jù)結(jié)構(gòu)表示,匹配算法等。美國(guó)馬里蘭大學(xué)的adamlopez提出了用后綴數(shù)組表示層次短語(yǔ)翻譯模型中翻譯模板的方法28。美國(guó)賓州大學(xué)的黃亮等人提出了cubepruning和cubegrowing算法29,以加快統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的解碼速度。新

48、加坡國(guó)立大學(xué)的張慧等提出了一種基于超樹(shù)(hypertree)的翻譯模板匹配算法30,用于改進(jìn)基于句法的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的翻譯模板匹配。中科院計(jì)算所的何中軍等人提出了部分匹配算法31以改進(jìn)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的數(shù)據(jù)稀疏問(wèn)題。可以通過(guò)加入人工書(shū)寫(xiě)的翻譯模板為機(jī)器翻譯系統(tǒng)引入新的知識(shí)源。中科院計(jì)算所的付雷等32嘗試解決融合句型模板和統(tǒng)計(jì)機(jī)器翻譯技術(shù)的問(wèn)題,將人工書(shū)寫(xiě)8融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯技術(shù)研究的模板和統(tǒng)計(jì)機(jī)器翻譯結(jié)合起來(lái)。這種方法為現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)提供了一種添加語(yǔ)言學(xué)知識(shí)的方法。由于同一個(gè)源語(yǔ)言端可以對(duì)應(yīng)到多個(gè)不同的目標(biāo)端,在翻譯過(guò)程中,翻譯模板的選擇,消岐對(duì)于生成的翻譯質(zhì)量至

49、關(guān)重要。何中軍等在33和34中利用最大熵分類模型改進(jìn)了翻譯模板選擇的方法。語(yǔ)義信息也可以被用于消岐,如詞義消岐的相關(guān)工作3536。1.4主主主要要要的的的研研研究究究目目目標(biāo)標(biāo)標(biāo)和和和內(nèi)內(nèi)內(nèi)容容容綜上所述,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中使用的翻譯模板,作為一種重要的知識(shí)表示,對(duì)機(jī)器翻譯的質(zhì)量,速度等都有重要的影響。到目前為止,對(duì)翻譯模板的研究仍然是機(jī)器翻譯研究中的重要內(nèi)容,通過(guò)對(duì)翻譯模板的改進(jìn),統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)能夠得到發(fā)展。本課題研究的總體目標(biāo)是研究融合翻譯模板的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的相關(guān)技術(shù),使翻譯模板在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中能夠更好地得到使用,期望通過(guò)這些研究提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),特別是實(shí)用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的

50、翻譯速度和質(zhì)量。本論文的研究工作主要集中在以下三個(gè)方面:1.研究翻譯模板的抽取,期望從現(xiàn)有語(yǔ)料庫(kù)中抽取能夠提高機(jī)器翻譯質(zhì)量的翻譯模板。2.研究利用變量熵來(lái)對(duì)翻譯模板做評(píng)價(jià),起到過(guò)濾翻譯模板,提高翻譯質(zhì)量的作用。3.研究將人工書(shū)寫(xiě)的翻譯模板應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的方法,改進(jìn)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的質(zhì)量。1.5論論論文文文的的的組組組織織織結(jié)結(jié)結(jié)構(gòu)構(gòu)構(gòu)本文的組織結(jié)構(gòu)如下:本章給出了翻譯模板的定義和國(guó)內(nèi)外相關(guān)研究現(xiàn)狀,以及本文研究的目標(biāo);在第二章中介紹了本文的研究框架。在第三章中介紹了一種改進(jìn)調(diào)序模板的自動(dòng)抽取算法,并介紹該調(diào)序模板應(yīng)用在層次短語(yǔ)翻譯系統(tǒng)中的實(shí)驗(yàn)結(jié)果;在第四章中介紹了利用變量熵作為評(píng)價(jià)標(biāo)準(zhǔn),過(guò)濾翻譯模板,并作為一個(gè)特征幫助統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)選擇翻譯模板的方法。在第五章中介紹了將人工書(shū)寫(xiě)的翻譯模板應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的研究;最后一章對(duì)全文進(jìn)行了總結(jié),并指出了下一步的研究方向。第第第二二二章章章融融融合合合翻翻翻譯譯譯模模模板板板的的的統(tǒng)統(tǒng)統(tǒng)計(jì)計(jì)計(jì)機(jī)機(jī)機(jī)器器器翻翻翻譯譯譯技技技術(shù)術(shù)術(shù)的的的研研研究究究框框框架架架2.1基基基本本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論