機器翻譯原理

上傳人：卓*** IP屬地：廣東上傳時間：2023-04-11 格式：PPT 頁數(shù)：64 大?。?.54MB 積分：18 舉報 版權申訴

已閱讀5頁，還剩59頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

機器翻譯原理第1頁，共64頁，2023年，2月20日，星期五主要內容概述為什么要自動地獲取知識（Why?)獲取什么知識(What?)如何獲取知識(How?)

雙語語料庫對齊加工句子對齊詞匯對齊結構對齊翻譯知識的獲取直接利用雙語語料庫獲取翻譯知識的研究間接利用雙語語料庫獲取翻譯知識的研究第2頁，共64頁，2023年，2月20日，星期五為什么要自動獲取知識（Why?)

機器翻譯的發(fā)展現(xiàn)狀

Internet的發(fā)展進一步促進了對機器翻譯技術的需求現(xiàn)有的機器翻譯系統(tǒng)不能令人滿意“滿篇英文難不住，滿篇中文看不懂”“MT，不是machinetranslation，而是madtranslation”

存在的主要問題

傳統(tǒng)的機器翻譯：手工編寫規(guī)則知識獲取瓶頸

解決的途徑從語料庫中自動獲取機器翻譯所需要的各種知識

第3頁，共64頁，2023年，2月20日，星期五什么是知識？

Bacon:“知識就是力量”

Feigenbaum:“知識與信息不一樣.知識是信息經過加工整理、解釋、挑選和改造而形成的”董振冬:知識是一個系統(tǒng)，是一個包含著各種概念與概念之間的關系，以及概念的屬性與屬性之間的關系的系統(tǒng)。第4頁，共64頁，2023年，2月20日，星期五獲取什么知識（What?)

單語

詞匯：分詞、詞性標注

語法（結構）：詞性標注、句法分析

語義：詞義排歧、聚類分析雙語

翻譯知識

詞典知識

結構轉換知識

譯文選擇知識

……第5頁，共64頁，2023年，2月20日，星期五如何獲取知識（How?)

知識獲取的主要方法

手工獲取知識

智能人機交互

統(tǒng)計方法（HMM,PCFG……)

機器學習方法決策樹歸納學習基于轉換的錯誤驅動的學習方法(EricBrill)

基于實例的方法

……第6頁，共64頁，2023年，2月20日，星期五翻譯知識獲取

知識獲取過程：

數(shù)據(jù)預處理知識挖掘知識評價雙語語料庫對齊加工

翻譯知識自動獲取

第7頁，共64頁，2023年，2月20日，星期五雙語語料庫及其對齊技術（1）

語料庫

語料庫(Corpora)是按照一定的原則組織在一起的真實的自

然語言數(shù)據(jù)(包括書面語和口語)的集合，主要用于研究自

然語言的規(guī)律，特別是統(tǒng)計語言學模型的訓練以及相關系

統(tǒng)的評價和評測

語料庫語言學

語料庫語言學是以語料庫為基本知識源來研究自然語言規(guī)

律的學科，主要研究內容包括語料庫加工的理論、方法和

工具以及基于語料庫的知識獲取。

單語語料庫(MonolingualCorpus)和多語語料庫(MultilingualCorpora)

第8頁，共64頁，2023年，2月20日，星期五雙語語料庫及其對齊技術（2）

雙語語料庫的建設

雙語語料庫(BilingualCorpora，ParallelCorpora)

國外：

加拿大的議會會議錄(CanadianHansards)，（英法）英國Brighton大學語言中心雙語語料庫INTERSECT,（英法書面語)

英國Birmingham大學的LINGUA多語語料庫項目，英、法、希臘語加拿大的BCD(BilingualCanadianDictionary)詞典編纂項目瑞典Uppsala大學語言學系建立的Scania多語語料庫

……

國內：

建立了一些單語語料，尚無大規(guī)模漢外雙語庫的報道目前國內基于漢外雙語語料庫的研究大都處于實驗和摸索階段香港科技大學的英漢雙語語料庫HKUST

哈工大-微軟聯(lián)合實驗室：6萬句對

第9頁，共64頁，2023年，2月20日，星期五雙語語料庫及其對齊技術（3）

雙語語料庫的對齊技術對齊：從互譯的不同語言文本中找出互譯片斷的過程語料庫的加工深度決定語料庫所能提供的知識的粒度雙語語料庫對齊可分為段落、句子、短語、單詞不同級別句子對齊詞對齊短語（結構）對齊

第10頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：句子對齊(1)基于長度的句子對齊方法源語言文本的長度與譯文長度有很強的相關性基于詞數(shù)長度的對齊（Brown)基于字符數(shù)的長度對齊方法(GaleChurch)這些算法都把句子對齊看作是句子長的函數(shù)；不需要額外的詞典信息；但是容易造成錯誤的蔓延?；谠~匯的句子對齊方法Simard等人提出了在長度標準上加上同源概念(Cognate)來提高算法的性能Kay和Roscheisen提出了另一種基于語匯的對齊算法，在該算法中選擇句子對齊的標準是其中詞匯對齊的數(shù)量。第11頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：句子對齊(2)Debili和Sammouda實現(xiàn)了Simard的思想，并采用雙語典為指導，以縮小搜索空間Church利用雙語文本中字母的對應信息，在1993年設計了一種字符對齊算法長度方法與詞匯方法相結合(Wu、Utsuro)不少學者認為句子對齊已經達到可以實用（～98％）第12頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：詞匯對齊(1)詞匯對齊是指在源文和對應的譯文中找到詞匯級的對譯關系大家都叫他毛伯伯。

EverybodycallshimUncleMao.由于詞匯對齊比句子對齊提供了更細粒度的對譯信息，因此可以為自然語言處理提供更大程度的支持第13頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：詞匯對齊(2)詞匯對齊的困難

詞匯對齊不滿足次序性假設詞匯對齊的模式十分復雜（1:1,1:m,m:1,m:m)

她改變角度去寫他的報告以遷就她的聽眾.Sheanglesherreportstosuitthepeoplesheisspeakingto.詞匯對齊匹配關系難以斷定(詞典，長度）

采用這種新裝置…

Theadoptionofthisnewdevice…..漢語的特點及英語和漢語間的固有差異漢語分詞問題;慣用搭配、成語、諺語第14頁，共64頁，2023年，2月20日，星期五雙語語料庫的對齊技術：詞匯對齊(3)基于統(tǒng)計的詞匯對齊方法主要思想:對大規(guī)模雙語語料庫進行統(tǒng)計，獲得對譯詞的翻譯概率

Brown(1,778,620),Gale(897,077),Dagan…

基于統(tǒng)計機器翻譯模型的詞匯對齊(Brown)

其中的翻譯模型通過詞匯對齊模型來實現(xiàn)；通過EM算法迭代訓練詞匯翻譯概率；問題：參數(shù)空間巨大；局部最優(yōu)基于同現(xiàn)的詞匯對應抽取(Gale&Church)

同現(xiàn)測度函數(shù)：聯(lián)列表,互信息，Dice系數(shù)，對數(shù)似然比第15頁，共64頁，2023年，2月20日，星期五雙語語料庫的對齊技術：詞匯對齊(4)基于詞典的詞匯對齊方法詞典包含雙語的對譯信息，因此是進行詞對齊的重要資源日本學者TakehitoUtsuro應用基于雙語詞典的改進算法對日英雙語文本(439句日語423句英文)進行了試驗：將詞典中已經給出的詞對共現(xiàn)刪除，而后對剩下的詞計算共現(xiàn)信息。采用含有50,000個詞條的日英詞典，試驗表明提高了日英術語詞典的抽取效果Ker,Wang等引入語義詞典提高了對齊的召回率其他基于語言學比較(Huang),利用Chunk分析(Sun)第16頁，共64頁，2023年，2月20日，星期五英漢雙語語料庫詞對齊實驗

現(xiàn)有方法存在的問題統(tǒng)計方法：語料庫規(guī)模小，統(tǒng)計數(shù)據(jù)不足詞典方法：詞典譯文覆蓋率較低，對齊的召回率低改進統(tǒng)計方法：在小規(guī)模語料庫提高統(tǒng)計學習質量詞典方法：引入基于詞典的模糊匹配

使用語義詞典，引入基于語義類的對齊統(tǒng)計、詞典和語言學知識相結合

第17頁，共64頁，2023年，2月20日，星期五基于詞典的詞對齊（1）完全基于詞典的詞對齊實驗（DA)

正確率:96.16%召回率：55.37%

第18頁，共64頁，2023年，2月20日，星期五基于詞典的詞對齊（2）詞典模糊匹配

Heabandonedhimselftogrief.

他不勝悲傷。（悲痛，傷心事，憂傷）

漢語詞c1和c2的模糊匹配相似度：英語詞e和漢語詞c的模糊匹配相似度：

基于模糊匹配的詞對齊（DSimA)

h1>0.5正確率:94.47%召回率：68.49%h1>0.7正確率:96.13%召回率：58.92%

第19頁，共64頁，2023年，2月20日，星期五基于詞典的詞對齊（3）語義相似度(CSimA)

同義詞詞林定義語義相似度：

基于語義相似度的詞對齊（CSimA):h0.5正確率:61.25%召回率：36.94%h1正確率:83.55%召回率：38.86%

DA+DSimA+CSimA

正確率:91.16%召回率：72.92%第20頁，共64頁，2023年，2月20日，星期五基于統(tǒng)計的翻譯詞表自動獲?。?）生成N-gram候選翻譯單元多詞對應問題：harddisk/硬盤;profile/配置文件…..漢語分詞問題：驅動器:驅動-器;單擊:單-擊N-gram的抽取:停用詞將句子分段

Theprojectmanagermayusethee-mailsystemtoviewandreplytomessagefromworkgroupmember.生成的N-gram候選:projectproject-managerusee-maile-mail-systemviewreplymessageworkgroupworkgroup-member第21頁，共64頁，2023年，2月20日，星期五基于統(tǒng)計的翻譯詞表自動獲?。?）翻譯概率的計算模型對于任意一對源語詞Ws和目標語詞Wt，設：a=freq(Ws,Wt)b=freq(Ws)-freq(Ws,Wt)c=freq(Wt)-freq(Ws,Wt)d=N–a–b-c

聯(lián)列表法：

hg(Ws,Wt)=(ad-bc)2/(a+b)(a+c)(b+d)(b+c)

Dice系數(shù)(DiceCoefficient)：Dice(Ws,Wt)=2freq(Ws,Wt)/[freq(Ws)+freq(Wt)]第22頁，共64頁，2023年，2月20日，星期五基于統(tǒng)計的翻譯詞表自動獲取（3）翻譯概率的計算模型互信息方法(MutualInformation)：

MI(Ws,Wt)=log2(freq(Ws,Wt)/freq(Ws)＊freq(Wt))

對數(shù)似然比(LogLikelihoodRatio,LLR)：LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d)-logL(p,a,a+b)-logL(p,c,c+d))其中，logL(p,k,n)=klog(p)+(n-k)log(1-p),p1=a/(a+b),p2=c/(c+d),p=(a+c)/(a+b+c+d)

詞典加權同現(xiàn)測度：

Wscore

(Ws,Wt)=log2(2+DSim(Ws,Wt))*Score(Ws,Wt)第23頁，共64頁，2023年，2月20日，星期五基于統(tǒng)計的翻譯詞表自動獲?。?）基于迭代的翻譯詞表自動抽取算法

間接相關問題：

貪心假設迭代的抽取算法第24頁，共64頁，2023年，2月20日，星期五基于統(tǒng)計的翻譯詞表自動獲取（5）實驗及結論

N-gram模型有利于提取多詞單元對應，并且能夠有效地發(fā)現(xiàn)新詞、術語及翻譯；

Click—單擊；e-mail—電子郵件；

networkdiagram—網(wǎng)絡圖；eventviewer—事件查看器……

迭代算法大大提高了統(tǒng)計的正確率；

詞典加權同現(xiàn)測度能夠提高統(tǒng)計質量在小規(guī)模訓練語料條件下,LogLikelihoodRatio的統(tǒng)計特性較好第25頁，共64頁，2023年，2月20日，星期五基于混合策略的詞對齊(1)對齊評價函數(shù)：

EF(e,c)=T(e,c)*D(e,c)

其中：T(e,c)為翻譯概率，

D(e,c)為位置形變概率,通過計算位置相對形變距離得到。位置相對形變距離是指一個可能的對齊相對于最近的確定對齊的距離。用貪心算法實現(xiàn)對齊過程和對齊歧義消除過程第26頁，共64頁，2023年，2月20日，星期五基于混合策略的詞對齊(2)利用語言學知識改善詞匯對齊結果利用詞性對譯關系實現(xiàn)詞匯對齊后處理短語擴展利用詞形變化特點，增加詞匯對齊匹配規(guī)則如：n/v+”者”/”家”

translationof(n/v)+“-er”/“-or”/“-ist”/“-ian”;

可以得到諸如“賽跑+者runner”、“征服+者

conqueror”等多詞單元對應。

數(shù)詞的對齊專有名詞的對齊第27頁，共64頁，2023年，2月20日，星期五實驗結果及分析（1）實驗用語料庫：語料庫1：通用語料庫(60,000句對）語料庫2：計算機語料庫(14,390句對)第28頁，共64頁，2023年，2月20日，星期五實驗結果及分析（2）第29頁，共64頁，2023年，2月20日，星期五實驗結果及分析（3）錯誤分析：資源不足，短語匹配，語言表達差異第30頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：結構對齊(1)結構對齊：短語結構，依存結構，組塊結構結構對齊的主要方法

Parse-Parse-Match方法單語分析+詞匯對齊+啟發(fā)式算法kaji,RalphGrishman,Yuji,AdamMeyer、Hideo…雙語同步分析WuDekai,WangWei結構對齊的難點難以獲得合適的、可靠的單語分析結果：如漢語不同語言的語法分析結果可能不匹配

雙語的結構匹配的狀態(tài)空間搜索問題第31頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：結構對齊(2)雙語分析模型(WuDekai)：反向轉換文法（inversiontransductionGrammars，ITG)

產生式有兩個方向

是一個雙語體系用詞翻譯概率連接雙語用概率選擇雙語分析結果

),,,,(21SRWWNITG=第32頁，共64頁，2023年，2月20日，星期五雙語語料庫對齊技術：結構對齊(3)[[[Thegame]BNP[[willstart]BVP[onWednesday]PP]VP]S.]S[[比賽[星期三開始]]。][[[The/egame/比賽]BNP<[will/estart/開始]VBP[on/eWednesday/星期三]PP>VP]S./。]SSBNPSVPPP./。The/egame/比賽will/estart/開始on/eWednesday/星期三BVP第33頁，共64頁，2023年，2月20日，星期五難以確定合適的雙語語法一個實用的雙語模型是反向劃界語法問題：雙語語料庫對齊技術：結構對齊(4)第34頁，共64頁，2023年，2月20日，星期五引入英語的句法分析得到的雙語分析第35頁，共64頁，2023年，2月20日，星期五單語句法分析指導的雙語結構對齊（1）

“parsing-parsing-match”方法的缺點

難以獲得合適的、可靠的單語分析結果，如漢語不同語言的語法分析結果可能不匹配

改進方法只使用英語的分析結果與雙語語言模型相結合第36頁，共64頁，2023年，2月20日，星期五單語句法分析指導的雙語結構對齊（2）

定義代價函數(shù)Fe(s,t)三種匹配情況She/1[is/2[a/3lovely/4girl/5]]./6]

越界分析:(1,2),(1,3),(2,3),(2,5)…

定界分析:(1,6),(2,5),(3,5)

界內分析:(3,4),(4,5)修正后的局部最優(yōu)函數(shù)用動態(tài)規(guī)劃算法（DP)求解最優(yōu)雙語分析樹第37頁，共64頁，2023年，2月20日，星期五單語句法分析指導的雙語結構對齊（3）

實驗：1000句對評價：語法準則

Thestudentwillgetapen.

這學生將得到一支鋼筆。

合語法：“Thestudent<-->這學生”,“willget<-->將得到”,“apen<-->一支鋼筆”不合語法：“studentwill<-->學生將”,“geta<-->得到一支”共有3889個標準對齊Experiment

noP

EPEP+CBEP+CP正確率(%)

68.82

85.50

90.56

88.87

第38頁，共64頁，2023年，2月20日，星期五單語句法分析指導的雙語結構對齊（4）

1.[<Mr./先生Chen/陳>BNP[is/是<[the/erepresentative/代表]BNP<of/的[our/我們company/公司]BNP>PP>NP]VP./。]S2.[Spring/春天[is/是<[the/efirst/第一e/個season/季節(jié)]BNP<in/里[a/一year/年]BNP>PP>X]VP./。]S3.[[The/ewindow/窗子]BNP[is/e<[e/更narrower/狹窄][than/比[the/edoor/門]BNP]PP>ADJP]VP./。]S4.[<[The/epoliceman/警察]BNP[who/e[reported/報告[the/這e/一accident/事故]BNP]VPe/的]SBAR>NP[thinks/認為[it/那[was/是[Tom/湯姆's/的fault/錯]BNP]VP]S]VP./。]S5.[[The/eBeijing/北京zoo/動物園]BNP[is/是<[the/elargest/最大e/的zoo/動物園]BNP[I/我[e/所have/eever/evisited/參觀e/過e/的]VBP]S>NP]VP./。]S第39頁，共64頁，2023年，2月20日，星期五翻譯知識獲取

雙語語料庫及其對齊技術

直接利用雙語語料庫進行機器翻譯的研究間接利用雙語語料庫獲取翻譯知識的研究

第40頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(1)

基于統(tǒng)計的機器翻譯(Statistics-basedMT,SBMT) e’=argmaxP(e|c)=argmaxP(e)P(c|e)/P(c)=argmaxP(e)P(c|e)P(e):語言模型P(c|e):翻譯模型IBM的Brown等人實現(xiàn)了完全基于統(tǒng)計方法的機器翻譯系統(tǒng)

以大規(guī)模雙語語料庫為基礎（3百萬句對）

建立統(tǒng)計的翻譯模型

概率統(tǒng)計是分析和生成過程中的唯一方法沒有正確和不正確的翻譯這樣的概念，只有可能性大小的譯文

不涉及任何語言學內容

48%的正確率

第41頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(2)

基于統(tǒng)計的機器翻譯:Brown的5各翻譯模型模型1:對齊概率僅依賴于其中每個雙語詞對的概率;模型2:對齊概率不僅依賴于每個雙語詞對的概率，還依賴于每個詞對出現(xiàn)位置之間的概率;模型3:計算了和每個源語詞相關的單詞數(shù)量;模型4和模型5:同時計算了這些詞的數(shù)量和這些詞本身。這些模型在訓練中都使用了統(tǒng)計逼近的方法。第42頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(3)

基于統(tǒng)計的機器翻譯:盡管IBM的工作是一種新的方法,可是一些學者也對這種“純粹的”統(tǒng)計方法提出了異議。他們認為必須引入高層語言模型；并且認為這種方法不一定能很好地作用于另一對語言(IBM工作的對象是英語和法語)，也不能產生高質量的MT，除非所有基于知識的MT觀點全錯。實際上IBM的研究者也承認這種方法不能解決語言中的遠程依賴問題CMUWangYeYi基于結構對齊的統(tǒng)計機器翻譯增加語言知識的統(tǒng)計機器翻譯第43頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(4)

基于實例的機器翻譯(Example-based,EBMT)日本京都大學的長尾真(Nagao)教授在1984年提出

原理:將源語言使用類比的方法與翻譯實例相比較，而采取相近的實例片段，重新生成譯文。根本觀點:認為翻譯過程通常是查找和復現(xiàn)相似的例子，發(fā)現(xiàn)和記起特定的源語言表達或其相似的表達在以前是如何翻譯的。把翻譯實例作為它的主要翻譯知識源，而把句子片斷的適當劃分和從詞匯到句子各級相似度的計算作為翻譯中的主要問題。PanglossEBMT(CMU)第44頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(5)

基于實例的機器翻譯(Example-based,EBMT)第45頁，共64頁，2023年，2月20日，星期五直接利用雙語語料庫進行機器翻譯的研究(6)

基于統(tǒng)計的機器翻譯解決了知識獲取的難題，但是由于完全排除了語言學知識，翻譯結果并不理想。

基于實例的方法確實為機器翻譯研究提供了一個嶄新的思路。但是如果直接在大規(guī)模的實例庫中進行各級的相似度計算和查找，處理的時間和空間復雜度都很高，并且可能會引起組合爆炸問題間接的基于實例的方法

首先從雙語語料庫中獲得各級翻譯知識

然后再利用這些獲得的知識進行翻譯第46頁，共64頁，2023年，2月20日，星期五雙語知識獲取

雙語語料庫及其對齊技術

直接利用雙語語料庫進行機器翻譯的研究間接利用雙語語料庫獲取翻譯知識的研究

第47頁，共64頁，2023年，2月20日，星期五間接利用雙語語料庫獲取翻譯知識的研究(1)

雙語語料庫學習翻譯知識源語言目標語言翻譯間接基于實例的機器翻譯第48頁，共64頁，2023年，2月20日，星期五間接利用雙語語料庫獲取翻譯知識的研究(2)

自動獲取的翻譯知識可以分為兩個層次

詞串級翻譯：即獲得詞匯或短語的直接譯文

翻譯模板：知識表達式中可以含有變量，一般為短語級翻譯模板，也可以是句子級的翻譯模板，

利用雙語語料庫詞對齊或短語對齊的結果可以直接獲得詞串級的譯文（詞典編撰）

從雙語語料庫中自動獲取翻譯模板

通過類比學習獲得翻譯模板

通過雙語結構匹配獲得翻譯模板

第49頁，共64頁，2023年，2月20日，星期五間接利用雙語語料庫獲取翻譯知識的研究(3)

通過類比學習獲得翻譯模板思想：比較語料庫中兩個翻譯實例的相同和不同部分，把其中的某部分加以概括，用變量置換即得到一個翻譯模板

Iliketodrinkcoffee我喜歡喝咖啡

Iliketodrinkmilk我喜歡喝牛奶

模板:

IliketodrinkX1我喜歡喝X2

ifX1X2coffee咖啡milk牛奶

優(yōu)點：不需要語法知識，甚至可以不使用詞典，僅僅通過兩個翻譯句對的類比來獲得翻譯模板。缺點：模板的概括性和對結構的把握程度很差，如果沒有非常大規(guī)模而且存在大量相似句子的雙語語料庫很難有一個理想的結果。

第50頁，共64頁，2023年，2月20日，星期五間接利用雙語語料庫獲取翻譯知識的研究(4)

通過雙語結構匹配獲得翻譯模板優(yōu)點：可以獲得各個層次的翻譯模板，即模板中的變量可以是某種短語類型，獲得的模板具有較強的概括性和靈活性。

缺點：

難以獲得合適的、可靠的單語分析結果：如漢語

不同語言的語法分析結果可能不匹配

雙語的結構匹配本身也是一個復雜的問題。其他方法

IBM東京研究實驗室機器翻譯系統(tǒng)SimTran通過翻譯中出現(xiàn)的錯誤來改善已有的轉換規(guī)則

TonyVeale等使用了基于標記的句子分割法把句子分割成片斷，然后再以片斷為單位進行雙語匹配和翻譯模板的獲取第51頁，共64頁，2023年，2月20日，星期五翻譯模板的獲取及翻譯實驗（1）

工作總體流程：第52頁，共64頁，2023年，2月20日，星期五翻譯模板的獲取及翻譯實驗（2）

獲取了兩種類型翻譯模板

結構轉換模板：非葉結點

譯文選擇模板：葉子結點短語，名詞，動詞，代詞，形容詞，副詞作為變量

S[He/他/PRPVP<VP[play/拉/VBPaccordion/手風琴/NN]PP[in/在/INBNP[the/e/ARTafternoon/下午/NN]]>./。]

結構轉換模板:

#S:1:C=PRP:+2:VP+3:W=.->T(1)+T(2)+。

#VP:1:VP+2:PP->T(2)+T(1);#VP:1:C=VBP+2:C=NN->T(1)+T(2);#PP:1:W=in+2:BNP->在+T(2)#PP:1:W=the+2:C=NN->T(2)

譯文選擇模板:

#play:-1:C=PRP+0:C=VBP+1:W=accordion->拉第53頁，共64頁，2023年，2月20日，星期五第54頁，共64頁，2023年，2月20日，星期五共獲得2889個模板，包括1806個結構轉換模板和1083個譯文選擇模板翻譯過程是一個遞歸的模板匹配過程通過評價翻譯結果來評價獲得的模板兩種評價方法

自動評價

手工評價

翻譯模板的獲取及翻譯實驗（3）第55頁，共64頁，2023年，2月20日，星期五翻譯模板的獲取及翻譯實驗（4）自動評價[Adam98]:

翻譯結果與語料中的譯文相近程度

“ABCDE”和源譯文“ABCFE”相比評價值為2/10

得到評價值0.09.好于Adam的結果0.29

局限性:“他們居住在非洲?！迸c“他們生活在非洲?！毕啾鹊梅?.25,

“空氣這里很好”與“這里空氣很好”得分為0手工評價[97年“863”機器翻譯評價標準]

ABCDEAveragescoreLTBS64%23%8%3%2%88.8KBS46%42%11%1%086.6第56頁，共64頁，2023年，2月20日，星期五翻譯實例及評價結果Iwillnotbeabletogotothemoviestomorrow.我明天不能去看電影。

AThesingerwasaccompaniedatthepianobyherpupil.演唱者由她的學生用鋼琴伴奏。

AHeishavinghisbreakfast.他正在吃他的早飯.BTheairhereisverygood這里空氣是很好

BTheystartedatnight.在晚上他們開始.CThestudenthasapen.這學生長一支鋼筆。

DYoudon'tlikehim,andIdon'teither.你做也喜歡他，我做不也不喜歡

E第57頁，共64頁，2023年，2月20日，星期五翻譯模板的獲取及翻譯實驗（5）與統(tǒng)計的機器翻譯方法相比，模板比統(tǒng)計概率更易于理解與純基于實例的方法相比，模板比短語、句子實例具有更強的概括能力所有模板都是自動提取的，大大節(jié)省了人力可移植性好獲得的模板可以集成到已有的規(guī)則系統(tǒng)的規(guī)則庫中第58頁，共64頁，2023年，2月20日，星期五存在的問題和今后工作存在的問題詞對齊和結構對齊錯誤累積，精度不高模板的表示和組織模板歧義消解對獲取知識的評價今后工作擴大訓練語料的規(guī)模，對實驗結果進行進一步分析和討論綜合運用統(tǒng)計方法和機器學習方法，對翻譯模板獲取方法進行改進和完善；在模板中引入語義特征來提高模板的概括能力。通過語料庫的統(tǒng)計為獲得的模板添加自信概率，使用統(tǒng)計和語言學知識相結合的方法解決模板沖突問題

第59頁，共64頁，2023年，2月20日，星期五利用雙語語料庫獲取翻譯知識的研究

利用雙語語料庫獲取翻譯知識的研究得到普遍重視美國，英國，加拿大，日本，韓國…

現(xiàn)有的方法上存在許多不盡人意的地方

國內:

近年來開始重視雙語語料庫對機器翻譯的價值

在雙語對齊方面做了一些工作

清華大學，中科院計算所、自動化所，哈工大

在利用雙語語料庫獲取翻譯知識方面還缺乏系統(tǒng)的研究

任重道遠…第60頁，共64頁，2023年，2月20日，星期五主要參考文獻(1)[1]P.F.Brown,J.C.Lai.etc.“AligningSentencesinParallelCorpora.”ACL-1991:169-176[2]P.F.Brown.ect.“TheMathematicsofStatisticalMachineTranslation:ParameterEstimation”ComputationalLinguistics,Vol.19,No.2,1993[3]K.W.Church.“Char-align:aProgramforAligningParallelTextsattheCharacterLevel.”ACL-1993:1-8[4]SueJ.KerandJasonS.Chang.“AClass-basedApproachtoWordAlignment.”ComputationalLinguistics23(2):313-343,1997[5]Jin-XiaHuang,Key-SunChoi“Chinese-KoreanWordAlignmentBasedonLinguisticComparison”.ACL-2000[6]RalfD.Brown"AutomatedDictionaryExtractionfor``Knowledge-Free''Example-BasedTranslation".TMI-1997:111-118[7]HideoWatanabe,SadaoKurohashi,andEijiAramaki.“FindingStructuralCorrespondencesfromBilingualParsedCorpusforCorpus-basedTranslaton”.COLING-2000.[8]IlyasCicekliandHalilAltayGuvenir.“LearningTranslationTemplatesformBilingualTranslationExamples”.AppliedIntelligence,Vol.15,No.1,2001,P57-76.[9]HusseinAlmuallim,YasuhitoAkiba,TakefumiYamazaki.“AToolfortheAcquisitionofJapanese-EnglishMachineTranslationRulesUsingInductiveLearningTechniques.”Proc.oftheConferenceonArtificialIntelligenceforApplications1994.第61頁，共64頁，2023年，2月20日，星期五[10]RalphGrishman,andJohnSterling.“GeneralizingAutomaticallyGeneratedSelectionalPatterns”.COLING-1994.[11]HalilAltayGuvenirandIlyasCilekli“LearningTranslationTemplatesfromExamples”.InformationSystemsVol.23,No.6,P353-363,1998.[12]HiroyuliKaji,YuukoKida,andYasutsuguMorimoto.“LearningTranslationTemplatesfromBilingualTexts.”COLING-1992:672-678[13]K.

LariandS.

J.Young.“Theestimationofstochasticcontext-freegrammarsusingtheInside-Outsidealgorithm.”ComputerSpeechandLanguage,4:35-56,1990.[14]ChristosMalavazos,

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器翻譯原理

文檔簡介

溫馨提示

最新文檔

評論

機器翻譯原理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔