




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、機器翻譯原理Part 雙語語料庫對齊及翻譯知識自動獲取技術MTLAB of HIT1主要內(nèi)容 概述 為什么要自動地獲取知識(Why ?)獲取什么知識 (What ?)如何獲取知識 (How ?) 雙語語料庫對齊加工句子對齊詞匯對齊結構對齊 翻譯知識的獲取直接利用雙語語料庫獲取翻譯知識的研究間接利用雙語語料庫獲取翻譯知識的研究2為什么要自動獲取知識(Why ?) 機器翻譯的發(fā)展現(xiàn)狀 Internet 的發(fā)展進一步促進了對機器翻譯技術的需求 現(xiàn)有的機器翻譯系統(tǒng)不能令人滿意 “滿篇英文難不住,滿篇中文看不懂” “ MT,不是machine translation,而是mad translation”
2、 存在的主要問題 傳統(tǒng)的機器翻譯:手工編寫規(guī)則 知識獲取瓶頸 解決的途徑 從語料庫中自動獲取機器翻譯所需要的各種知識 3什么是知識? Bacon: “知識就是力量” Feigenbaum: “知識與信息不一樣. 知識是信息經(jīng)過加工整理、解釋、挑選和改造而形成的” 董振冬: 知識是一個系統(tǒng),是一個包含著各種概念與概念之間的關系,以及概念的屬性與屬性之間的關系的系統(tǒng)。4獲取什么知識(What ?) 單語 詞匯:分詞、詞性標注 語法(結構):詞性標注、句法分析 語義:詞義排歧、聚類分析 雙語 翻譯知識 詞典知識 結構轉(zhuǎn)換知識 譯文選擇知識 5如何獲取知識(How ?) 知識獲取的主要方法 手工獲取知
3、識 智能人機交互 統(tǒng)計方法(HMM, PCFG) 機器學習方法決策樹歸納學習基于轉(zhuǎn)換的錯誤驅(qū)動的學習方法(Eric Brill) 基于實例的方法 6翻譯知識獲取 知識獲取過程: 數(shù)據(jù)預處理 知識挖掘 知識評價雙語語料庫對齊加工 翻譯知識自動獲取 7雙語語料庫及其對齊技術(1) 語料庫 語料庫(Corpora)是按照一定的原則組織在一起的真實的自 然語言數(shù)據(jù)(包括書面語和口語)的集合,主要用于研究自 然語言的規(guī)律,特別是統(tǒng)計語言學模型的訓練以及相關系 統(tǒng)的評價和評測 語料庫語言學 語料庫語言學是以語料庫為基本知識源來研究自然語言規(guī) 律的學科,主要研究內(nèi)容包括語料庫加工的理論、方法和 工具以及基于
4、語料庫的知識獲取。 單語語料庫(Monolingual Corpus)和多語語 料庫(Multilingual Corpora) 8雙語語料庫及其對齊技術(2) 雙語語料庫的建設 雙語語料庫(Bilingual Corpora,Parallel Corpora) 國外: 加拿大的議會會議錄(Canadian Hansards),(英法) 英國Brighton大學語言中心雙語語料庫INTERSECT,(英法書面語) 英國Birmingham大學的LINGUA多語語料庫項目,英、法、希臘語 加拿大的BCD(Bilingual Canadian Dictionary)詞典編纂項目 瑞典Uppsala
5、大學語言學系建立的Scania多語語料庫 國內(nèi): 建立了一些單語語料,尚無大規(guī)模漢外雙語庫的報道 目前國內(nèi)基于漢外雙語語料庫的研究大都處于實驗和摸索階段 香港科技大學的英漢雙語語料庫HKUST 哈工大-微軟聯(lián)合實驗室:6萬句對 9雙語語料庫及其對齊技術(3) 雙語語料庫的對齊技術對齊:從互譯的不同語言文本中找出互譯片斷的過程語料庫的加工深度決定語料庫所能提供的知識的粒度雙語語料庫對齊可分為段落、句子、短語、單詞不同級別 句子對齊 詞對齊 短語(結構)對齊 10雙語語料庫對齊技術:句子對齊(1)基于長度的句子對齊方法源語言文本的長度與譯文長度有很強的相關性基于詞數(shù)長度的對齊(Brown)基于字符
6、數(shù)的長度對齊方法(Gale Church)這些算法都把句子對齊看作是句子長的函數(shù);不需要額外的詞典信息;但是容易造成錯誤的蔓延。基于詞匯的句子對齊方法Simard等人提出了在長度標準上加上同源概念(Cognate) 來提高算法的性能Kay和Roscheisen提出了另一種基于語匯的對齊算法,在該算法中選擇句子對齊的標準是其中詞匯對齊的數(shù)量。11雙語語料庫對齊技術:句子對齊(2)Debili 和Sammouda實現(xiàn)了Simard的思想,并采用雙語典為指導,以縮小搜索空間Church利用雙語文本中字母的對應信息,在1993年設計了一種字符對齊算法長度方法與詞匯方法相結合(Wu、Utsuro)不少學
7、者認為句子對齊已經(jīng)達到可以實用(98)12雙語語料庫對齊技術:詞匯對齊(1)詞匯對齊是指在源文和對應的譯文中找到詞匯級的對譯關系 大家 都 叫 他 毛 伯伯 。 Everybody calls him Uncle Mao . 由于詞匯對齊比句子對齊提供了更細粒度的對譯信息,因此可以為自然語言處理提供更大程度的支持13雙語語料庫對齊技術:詞匯對齊(2)詞匯對齊的困難詞匯對齊不滿足次序性假設詞匯對齊的模式十分復雜(1:1,1:m,m:1,m:m) 她改變角度去寫他的報告以遷就她的聽眾. She angles her reports to suit the people she is speakin
8、g to.詞匯對齊匹配關系難以斷定(詞典,長度) 采用這種新裝置 The adoption of this new device.漢語的特點及英語和漢語間的固有差異漢語分詞問題; 慣用搭配、成語、諺語14雙語語料庫的對齊技術:詞匯對齊(3)基于統(tǒng)計的詞匯對齊方法主要思想: 對大規(guī)模雙語語料庫進行統(tǒng)計,獲得對譯詞的翻譯概率 Brown(1,778,620),Gale(897,077),Dagan 基于統(tǒng)計機器翻譯模型的詞匯對齊(Brown) 其中的翻譯模型通過詞匯對齊模型來實現(xiàn); 通過EM算法迭代訓練詞匯翻譯概率; 問題:參數(shù)空間巨大; 局部最優(yōu)基于同現(xiàn)的詞匯對應抽取(Gale &Church)
9、 同現(xiàn)測度函數(shù):聯(lián)列表, 互信息,Dice系數(shù),對數(shù)似然比15雙語語料庫的對齊技術:詞匯對齊(4)基于詞典的詞匯對齊方法詞典包含雙語的對譯信息,因此是進行詞對齊的重要資源日本學者Takehito Utsuro 應用基于雙語詞典的改進算法對日英雙語文本(439句日語 423句英文)進行了試驗:將詞典中已經(jīng)給出的詞對共現(xiàn)刪除,而后對剩下的詞計算共現(xiàn)信息。采用含有50,000個詞條的日英詞典,試驗表明提高了日英術語詞典的抽取效果Ker, Wang等引入語義詞典提高了對齊的召回率其他基于語言學比較(Huang),利用Chunk分析(Sun)16英漢雙語語料庫詞對齊實驗 現(xiàn)有方法存在的問題統(tǒng)計方法:語料
10、庫規(guī)模小,統(tǒng)計數(shù)據(jù)不足詞典方法:詞典譯文覆蓋率較低,對齊的召回率低改進統(tǒng)計方法:在小規(guī)模語料庫提高統(tǒng)計學習質(zhì)量詞典方法:引入基于詞典的模糊匹配 使用語義詞典,引入基于語義類的對齊統(tǒng)計、詞典和語言學知識相結合 17基于詞典的詞對齊(1)完全基于詞典的詞對齊實驗(DA) 正確率: 96.16% 召回率:55.37% 18基于詞典的詞對齊(2)詞典模糊匹配 He abandoned himself to grief. 他不勝悲傷。(悲痛,傷心事,憂傷) 漢語詞c1和c2的模糊匹配相似度: 英語詞e和漢語詞c的模糊匹配相似度: 基于模糊匹配的詞對齊(DSimA) h10.5 正確率: 94.47% 召
11、回率:68.49% h10.7 正確率: 96.13% 召回率:58.92% 19基于詞典的詞對齊(3)語義相似度(CSimA) 同義詞詞林 定義語義相似度: 基于語義相似度的詞對齊(CSimA): h 0.5 正確率: 61.25% 召回率:36.94% h 1 正確率: 83.55% 召回率:38.86% DA+DSimA+CSimA 正確率: 91.16% 召回率:72.92%20基于統(tǒng)計的翻譯詞表自動獲?。?)生成N-gram候選翻譯單元多詞對應問題:hard disk/硬盤; profile/配置 文件.漢語分詞問題:驅(qū)動器: 驅(qū)動 - 器; 單擊:單-擊N-gram的抽取: 停用詞
12、將句子分段 The project manager may use the e-mail system to view and reply to message from workgroup member . 生成的N-gram候選:project project-manager use e-mail e-mail-system view reply message workgroup workgroup-member 21基于統(tǒng)計的翻譯詞表自動獲?。?)翻譯概率的計算模型對于任意一對源語詞Ws和目標語詞Wt ,設: a = freq(Ws,Wt) b = freq(Ws) - freq(Ws
13、,Wt) c = freq(Wt) - freq(Ws,Wt) d= N a b - c 聯(lián)列表法: hg (Ws,Wt)= (ad-bc) 2 / (a+b)(a+c)(b+d)(b+c) Dice系數(shù)(Dice Coefficient): Dice(Ws,Wt)= 2 freq(Ws,Wt) / freq(Ws) + freq(Wt) 22基于統(tǒng)計的翻譯詞表自動獲取(3)翻譯概率的計算模型 互信息方法(Mutual Information): MI(Ws,Wt)= log2(freq(Ws,Wt) / freq(Ws) freq(Wt) 對數(shù)似然比(Log Likelihood Ratio
14、,LLR) : LLR(Ws,Wt)=2logL(p1,a,a+b)+logL(p2,c,c+d) - logL(p,a,a+b) - logL(p,c,c+d) 其中,logL(p,k,n)=klog(p)+(n-k)log(1-p), p1=a/(a+b), p2=c/(c+d), p=(a+c)/(a+b+c+d) 詞典加權同現(xiàn)測度: Wscore (Ws,Wt)=log2(2+DSim(Ws,Wt)*Score (Ws,Wt)23基于統(tǒng)計的翻譯詞表自動獲?。?)基于迭代的翻譯詞表自動抽取算法 間接相關問題: 貪心假設 迭代的抽取算法24基于統(tǒng)計的翻譯詞表自動獲?。?)實驗及結論 N-g
15、ram模型有利于提取多詞單元對應,并且能夠有效地發(fā)現(xiàn)新詞、術語及翻譯; Click單擊; e-mail 電子郵件; network diagram 網(wǎng)絡圖; event viewer 事件查看器 迭代算法大大提高了統(tǒng)計的正確率; 詞典加權同現(xiàn)測度能夠提高統(tǒng)計質(zhì)量 在小規(guī)模訓練語料條件下, Log Likelihood Ratio的統(tǒng)計 特性較好25基于混合策略的詞對齊(1)對齊評價函數(shù): EF(e, c)=T(e, c) * D(e, c) 其中:T(e,c)為翻譯概率, D(e,c)為位置形變概率,通過計算位置相對形變距 離得到。位置相對形變距離是指一個可能的對齊 相對于最近的確定對齊的距離
16、。用貪心算法實現(xiàn)對齊過程和對齊歧義消除過程26基于混合策略的詞對齊(2)利用語言學知識改善詞匯對齊結果利用詞性對譯關系實現(xiàn)詞匯對齊后處理短語擴展利用詞形變化特點,增加詞匯對齊匹配規(guī)則如:n/v+”者”/”家” translationof(n/v)+ “-er”/ “-or”/ “-ist”/ “-ian”; 可以得到諸如“賽跑+者runner”、“征服+者 conqueror”等多詞單元對應。 數(shù)詞的對齊專有名詞的對齊27實驗結果及分析(1)實驗用語料庫:語料庫1:通用語料庫(60,000句對)語料庫2:計算機語料庫(14,390句對)28實驗結果及分析(2)29實驗結果及分析(3)錯誤分析:
17、資源不足,短語匹配,語言表達差異30雙語語料庫對齊技術:結構對齊(1)結構對齊:短語結構,依存結構,組塊結構結構對齊的主要方法 Parse-Parse-Match 方法單語分析+詞匯對齊+啟發(fā)式算法kaji,Ralph Grishman,Yuji,Adam Meyer、Hideo雙語同步分析Wu Dekai, Wang Wei結構對齊的難點難以獲得合適的、可靠的單語分析結果:如漢語不同語言的語法分析結果可能不匹配 雙語的結構匹配的狀態(tài)空間搜索問題31雙語語料庫對齊技術:結構對齊(2)雙語分析模型(Wu Dekai): 反向轉(zhuǎn)換文法( inversion transduction Grammar
18、s,ITG) 產(chǎn)生式有兩個方向 是一個雙語體系用詞翻譯概率連接雙語用概率選擇雙語分析結果),(21SRWWNITG=32雙語語料庫對齊技術:結構對齊(3)The gameBNP will start BVP on WednesdayPPVP S .S比賽 星期三 開始 。The/e game/比賽BNP VP S ./。SSBNPSVPPP./。The/egame/比賽will/estart/開始on/eWednesday/星期三BVP33難以確定合適的雙語語法一個實用的雙語模型是反向劃界語法問題:雙語語料庫對齊技術:結構對齊(4)34引入英語的句法分析得到的雙語分析35單語句法分析指導的雙語
19、結構對齊(1) “parsing-parsing-match”方法的缺點 難以獲得合適的、可靠的單語分析結果,如漢語 不同語言的語法分析結果可能不匹配改進方法 只使用英語的分析結果 與雙語語言模型相結合36單語句法分析指導的雙語結構對齊(2) 定義代價函數(shù)Fe(s, t)三種匹配情況She/1 is/2 a/3 lovely/4 girl/5./6 越界分析: (1,2), (1,3) ,(2,3), (2, 5) 定界分析: (1,6),(2,5),(3,5) 界內(nèi)分析: (3,4),(4,5) 修正后的局部最優(yōu)函數(shù)用動態(tài)規(guī)劃算法(DP)求解最優(yōu)雙語分析樹37單語句法分析指導的雙語結構對齊(
20、3) 實驗:1000句對評價:語法準則 The student will get a pen . 這學生將得到一支鋼筆。 合語法: “The student 這學生”, “will get將得到”, “a pen 一支鋼筆” 不合語法:“student will學生將”, “get a得到一支”共有3889個標準對齊Experiment no P EPEP+CBEP+CP 正確率(%) 68.82 85.50 90.56 88.87 38單語句法分析指導的雙語結構對齊(4) 1. BNP is/是 the/e representative/代表BNP PP NP VP . /。S2. Spri
21、ng/春天 is/是the/e first/第一e/個season/季節(jié)BNP PP X VP . /。S3. The/e window/窗子BNP is/e ADJP VP . /。S4. NP thinks/認為it/那was/是Tom/湯姆 s/的fault /錯BNP VP S VP . /。S5. The/e Beijing/北京zoo/動物園BNP is/是NP VP ./。 S39翻譯知識獲取 雙語語料庫及其對齊技術 直接利用雙語語料庫進行機器翻譯的研究間接利用雙語語料庫獲取翻譯知識的研究 40直接利用雙語語料庫進行機器翻譯的研究(1) 基于統(tǒng)計的機器翻譯(Statistics-
22、based MT,SBMT)e = argmax P(e|c)= argmax P(e)P(c|e)/P(c) = argmax P(e)P(c|e) P(e):語言模型 P(c|e): 翻譯模型IBM的Brown等人實現(xiàn)了完全基于統(tǒng)計方法的機器翻譯系統(tǒng) 以大規(guī)模雙語語料庫為基礎(3百萬句對) 建立統(tǒng)計的翻譯模型 概率統(tǒng)計是分析和生成過程中的唯一方法 沒有正確和不正確的翻譯這樣的概念,只有可能性大小的譯文 不涉及任何語言學內(nèi)容 48%的正確率 41直接利用雙語語料庫進行機器翻譯的研究(2) 基于統(tǒng)計的機器翻譯:Brown的5各翻譯模型模型1:對齊概率僅依賴于其中每個雙語詞對的概率;模型2:對齊
23、概率不僅依賴于每個雙語詞對的概率,還依賴于每個詞對出現(xiàn)位置之間的概率;模型3:計算了和每個源語詞相關的單詞數(shù)量;模型4和模型5:同時計算了這些詞的數(shù)量和這些詞本身。這些模型在訓練中都使用了統(tǒng)計逼近的方法。42直接利用雙語語料庫進行機器翻譯的研究(3) 基于統(tǒng)計的機器翻譯:盡管IBM的工作是一種新的方法, 可是一些學者也對這種“純粹的”統(tǒng)計方法提出了異議。他們認為必須引入高層語言模型;并且認為這種方法不一定能很好地作用于另一對語言(IBM工作的對象是英語和法語),也不能產(chǎn)生高質(zhì)量的MT,除非所有基于知識的MT觀點全錯。實際上IBM的研究者也承認這種方法不能解決語言中的遠程依賴問題CMU Wang
24、 Ye Yi 基于結構對齊的統(tǒng)計機器翻譯增加語言知識的統(tǒng)計機器翻譯43直接利用雙語語料庫進行機器翻譯的研究(4) 基于實例的機器翻譯(Example-based, EBMT)日本京都大學的長尾真(Nagao)教授在1984年提出 原理:將源語言使用類比的方法與翻譯實例相比較,而采取相近的實例片段,重新生成譯文。根本觀點:認為翻譯過程通常是查找和復現(xiàn)相似的例子,發(fā)現(xiàn)和記起特定的源語言表達或其相似的表達在以前是如何翻譯的。把翻譯實例作為它的主要翻譯知識源,而把句子片斷的適當劃分和從詞匯到句子各級相似度的計算作為翻譯中的主要問題。Pangloss EBMT(CMU)44直接利用雙語語料庫進行機器翻譯
25、的研究(5) 基于實例的機器翻譯(Example-based, EBMT)45直接利用雙語語料庫進行機器翻譯的研究(6) 基于統(tǒng)計的機器翻譯解決了知識獲取的難題,但是由于完全排除了語言學知識,翻譯結果并不理想。 基于實例的方法確實為機器翻譯研究提供了一個嶄新的思路。但是如果直接在大規(guī)模的實例庫中進行各級的相似度計算和查找,處理的時間和空間復雜度都很高,并且可能會引起組合爆炸問題 間接的基于實例的方法 首先從雙語語料庫中獲得各級翻譯知識 然后再利用這些獲得的知識進行翻譯 46雙語知識獲取 雙語語料庫及其對齊技術 直接利用雙語語料庫進行機器翻譯的研究間接利用雙語語料庫獲取翻譯知識的研究 47間接利
26、用雙語語料庫獲取翻譯知識的研究(1) 雙語語料庫學習翻譯知識源語言目標語言翻譯 間接基于實例的機器翻譯48間接利用雙語語料庫獲取翻譯知識的研究(2) 自動獲取的翻譯知識可以分為兩個層次 詞串級翻譯:即獲得詞匯或短語的直接譯文 翻譯模板: 知識表達式中可以含有變量,一般為短語級 翻譯模板,也可以是句子級的翻譯模板, 利用雙語語料庫詞對齊或短語對齊的結果可以直接獲得詞串級的譯文(詞典編撰) 從雙語語料庫中自動獲取翻譯模板 通過類比學習獲得翻譯模板 通過雙語結構匹配獲得翻譯模板 49間接利用雙語語料庫獲取翻譯知識的研究(3) 通過類比學習獲得翻譯模板 思想:比較語料庫中兩個翻譯實例的相同和不同部分,
27、把其中的某部分加以概括,用變量置換即得到一個翻譯模板 I like to drink coffee 我喜歡喝咖啡 I like to drink milk 我喜歡喝牛奶 模板: I like to drink X1我喜歡喝X2 if X1 X2 coffee 咖啡 milk 牛奶 優(yōu)點:不需要語法知識,甚至可以不使用詞典,僅僅通過兩個翻譯句對的類比來獲得翻譯模板。 缺點:模板的概括性和對結構的把握程度很差,如果沒有非常大規(guī)模而且存在大量相似句子的雙語語料庫很難有一個理想的結果。 50間接利用雙語語料庫獲取翻譯知識的研究(4) 通過雙語結構匹配獲得翻譯模板 優(yōu)點:可以獲得各個層次的翻譯模板,即模
28、板中的變量可以是某種短語類型,獲得的模板具有較強的概括性和靈活性。 缺點: 難以獲得合適的、可靠的單語分析結果:如漢語 不同語言的語法分析結果可能不匹配 雙語的結構匹配本身也是一個復雜的問題。 其他方法 IBM東京研究實驗室機器翻譯系統(tǒng)SimTran 通過翻譯中出現(xiàn)的錯誤來改善已有的轉(zhuǎn)換規(guī)則 Tony Veale等使用了基于標記的句子分割法把句子分割成片斷,然后再以片斷為單位進行雙語匹配和翻譯模板的獲取51翻譯模板的獲取及翻譯實驗(1) 工作總體流程 :52翻譯模板的獲取及翻譯實驗(2) 獲取了兩種類型翻譯模板 結構轉(zhuǎn)換模板:非葉結點 譯文選擇模板:葉子結點短語,名詞,動詞,代詞,形容詞,副詞
29、作為變量 SHe/他/PRP VP./。 結構轉(zhuǎn)換模板: #S : 1:C=PRP:+2:VP+3:W=.- T(1)+T(2)+。 #VP: 1:VP+2:PP-T(2)+T(1); #VP: 1:C=VBP+2:C=NN-T(1)+T(2); #PP : 1:W=in+2:BNP-在+T(2) #PP : 1:W=the+2:C=NN-T(2) 譯文選擇模板: #play: -1:C=PRP+0:C=VBP+1:W= accordion-拉53共獲得 2889 個模板,包括 1806個結構轉(zhuǎn)換模板和 1083個譯文選擇模板翻譯過程是一個遞歸的模板匹配過程通過評價翻譯結果來評價獲得的模板兩種
30、評價方法 自動評價 手工評價 翻譯模板的獲取及翻譯實驗(3)54翻譯模板的獲取及翻譯實驗(4)自動評價Adam 98 : 翻譯結果與語料中的譯文相近程度 “A B C D E” 和源譯文 “A B C F E” 相比評價值為 2/10 得到評價值0.09. 好于Adam的結果 0.29 局限性: “他們居住在非洲?!?與“他們生活在非洲?!毕啾鹊梅?0.25 , “空氣這里很好” 與 “這里空氣很好” 得分為0手工評價97年“863”機器翻譯評價標準 55翻譯實例及評價結果I will not be able to go to the movies tomorrow. 我明天不能去看電影。 A
31、 The singer was accompanied at the piano by her pupil. 演唱者由她的學生用鋼琴伴奏。 AHe is having his breakfast. 他正在吃他的早飯. BThe air here is very good 這里空氣是很好 BThey started at night . 在晚上他們開始.CThe student has a pen . 這學生長一支鋼筆。 DYou dont like him, and I dont either. 你做也喜歡他,我做不也不喜歡 E56翻譯模板的獲取及翻譯實驗(5)與統(tǒng)計的機器翻譯方法相比,模板比
32、統(tǒng)計概率更易于理解與純基于實例的方法相比,模板比短語、句子實例具有更強的概括能力所有模板都是自動提取的,大大節(jié)省了人力可移植性好獲得的模板可以集成到已有的規(guī)則系統(tǒng)的規(guī)則庫中57存在的問題和今后工作存在的問題 詞對齊和結構對齊錯誤累積,精度不高 模板的表示和組織 模板歧義消解 對獲取知識的評價今后工作擴大訓練語料的規(guī)模,對實驗結果進行進一步分析和討論綜合運用統(tǒng)計方法和機器學習方法,對翻譯模板獲取方法進行改進和完善;在模板中引入語義特征來提高模板的概括能力。通過語料庫的統(tǒng)計為獲得的模板添加自信概率,使用統(tǒng)計和語言學知識相結合的方法解決模板沖突問題 58利用雙語語料庫獲取翻譯知識的研究 利用雙語語料
33、庫獲取翻譯知識的研究得到普遍重視 美國,英國,加拿大,日本,韓國 現(xiàn)有的方法上存在許多不盡人意的地方 國內(nèi): 近年來開始重視雙語語料庫對機器翻譯的價值 在雙語對齊方面做了一些工作 清華大學,中科院計算所、自動化所,哈工大 在利用雙語語料庫獲取翻譯知識方面還缺乏系統(tǒng)的研究 任重道遠59主要參考文獻 (1)1 P. F. Brown, J. C. Lai. etc. “Aligning Sentences in Parallel Corpora.” ACL-1991:169-1762 P. F. Brown. ect. “The Mathematics of Statistical Machine
34、 Translation: Parameter Estimation” Computational Linguistics, Vol. 19, No.2 ,19933K. W. Church. “Char-align: a Program for Aligning Parallel Texts at the Character Level.” ACL-1993: 1-84 Sue J. Ker and Jason S. Chang. “A Class-based Approach to Word Alignment.” Computational Linguistics 23(2):313-3
35、43, 19975 Jin-Xia Huang, Key-Sun Choi “Chinese-Korean Word Alignment Based on Linguistic Comparison”. ACL-20006 Ralf D. Brown Automated Dictionary Extraction for Knowledge-Free Example-Based Translation. TMI-1997:111-1187 Hideo Watanabe, Sadao Kurohashi, and Eiji Aramaki. “Finding Structural Corresp
36、ondences from Bilingual Parsed Corpus for Corpus-based Translaton”. COLING-2000.8 Ilyas Cicekli and Halil Altay Guvenir. “Learning Translation Templates form Bilingual Translation Examples”. Applied Intelligence, Vol. 15, No. 1, 2001,P57-76.9 Hussein Almuallim, Yasuhito Akiba, Takefumi Yamazaki. “A
37、Tool for the Acquisition of Japanese-English Machine Translation Rules Using Inductive Learning Techniques.” Proc. of the Conference on Artificial Intelligence for Applications 1994.6010 Ralph Grishman, and John Sterling. “Generalizing Automatically Generated Selectional Patterns”. COLING-1994.11 Ha
38、lil Altay Guvenir and Ilyas Cilekli “Learning Translation Templates from Examples”. Information Systems Vol.23, No. 6, P353-363,1998.12 Hiroyuli Kaji, Yuuko Kida, and Yasutsugu Morimoto. “Learning Translation Templates from Bilingual Texts.” COLING-1992: 672-67813 K.Lari and S.J. Young. “The estimat
39、ion of stochastic context-free grammars using the Inside-Outside algorithm.” Computer Speech and Language, 4:35-56, 1990. 14 Christos Malavazos, Stelios Piperidis. “Application of analogical Modeling to Example Based Machine Translation”. COLING-2000:516-52215 Yuji Matsumoto and Mihoko Kitamura “A Machine Translation System Based on Translation Rules Acquired from Parallel Corpora”. Recent Advances in NLP. Bulgnira 1995.16 Adam Meyers, Roman Yangarber, Ralph Grishman etc. “Deriving Transfer Rules from Dominance-Prese
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 贈與協(xié)議書歸誰所有
- 住宿房屋安全協(xié)議書
- 洛川公益訴訟協(xié)議書
- 資產(chǎn)置換協(xié)議書模板
- 清算資產(chǎn)協(xié)議書范本
- 內(nèi)燃火車轉(zhuǎn)讓協(xié)議書
- 石材加工銷售協(xié)議書
- 增資擴股協(xié)議書要點
- 事故自愿賠償協(xié)議書
- 垃圾安全生產(chǎn)協(xié)議書
- 學校保潔方案
- 血液透析患者心力衰竭的護理
- 江蘇省2021-2022學年二年級下學期數(shù)學期中備考卷一(南京專版)
- TCI 535-2024 鋁合金液態(tài)模鍛模具技術條件
- 胰島素泵護理管理規(guī)范
- 9.1.1 西亞 第1課時 課件 七年級地理下冊 人教版
- 校外培訓機構預收費資金托管協(xié)議書范本
- 2025山東能源集團中級人才庫選拔高頻重點模擬試卷提升(共500題附帶答案詳解)
- 《餐廳托盤的使用技》課件
- 【化學】化學與可持續(xù)發(fā)展教學設計-2024-2025學年九年級化學人教版下冊
- Unit 2 Know your body(說課稿) -2024-2025學年外研版(三起)(2024)英語三年級下冊
評論
0/150
提交評論