機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf_第1頁(yè)
機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf_第2頁(yè)
機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf_第3頁(yè)
機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf_第4頁(yè)
機(jī)器翻譯原理與方法講義(02)機(jī)器翻譯方法概述.pdf_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器翻譯原理與方法 第二講 機(jī)器翻譯方法概述 中國(guó)科學(xué)院計(jì)算技術(shù)研究所2008 2009年度秋季課程 劉群 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 liuqun 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述2 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法直接翻譯方法 句法轉(zhuǎn)換方法句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述3 按轉(zhuǎn)換層面劃分的機(jī)器翻譯方法 源語(yǔ)言目標(biāo)語(yǔ)言 中間語(yǔ)言 直接翻譯 句法轉(zhuǎn)換 語(yǔ)義轉(zhuǎn)換 形態(tài)分析 形態(tài)生成 句法分析 句法生成 語(yǔ)義分析語(yǔ)義生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述4 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述5 直接翻譯方法 通過(guò)詞語(yǔ)翻譯 插入 刪除和局部的詞序調(diào)整來(lái) 實(shí)現(xiàn)翻譯 不進(jìn)行深層次的句法和語(yǔ)義的分析 但可以采用一些統(tǒng)計(jì)方法對(duì)詞語(yǔ)和詞類序列進(jìn)行 分析 早期機(jī)器翻譯系統(tǒng)常用的方法 近期IBM提出的 統(tǒng)計(jì)機(jī)器翻譯模型也可以認(rèn)為是采用了這一范式 著名的機(jī)器翻譯系統(tǒng)Systran早期也是采用這種方 法 后來(lái)逐步引入了一些句法和語(yǔ)義分析 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述6 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述7 轉(zhuǎn)換方法 1 整個(gè)翻譯過(guò)程分為 分析 轉(zhuǎn)換 生成 三個(gè) 階段 分析 源語(yǔ)言句子 源語(yǔ)言深層結(jié)構(gòu) 相關(guān)分析 分析時(shí)考慮目標(biāo)語(yǔ)言的特點(diǎn) 獨(dú)立分析 分析過(guò)程與目標(biāo)語(yǔ)言無(wú)關(guān) 轉(zhuǎn)換 源語(yǔ)言深層結(jié)構(gòu) 目標(biāo)語(yǔ)言深層結(jié)構(gòu) 生成 目標(biāo)語(yǔ)言深層結(jié)構(gòu) 目標(biāo)語(yǔ)言句子 相關(guān)生成 生成時(shí)考慮源語(yǔ)言的特點(diǎn) 獨(dú)立生成 生成過(guò)程與源語(yǔ)言無(wú)關(guān) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述8 轉(zhuǎn)換方法 2 理想的轉(zhuǎn)換方法應(yīng)該做到獨(dú)立分析和獨(dú)立生 成 這樣在進(jìn)行多語(yǔ)言機(jī)器翻譯的時(shí)候可以大 大減少分析和生成的工作量 轉(zhuǎn)換方法根據(jù)深層結(jié)構(gòu)所處的層面可分為 句法層轉(zhuǎn)換 深層結(jié)構(gòu)主要是句法信息 語(yǔ)義層轉(zhuǎn)換 深層結(jié)構(gòu)主要是語(yǔ)義信息 分析深度的權(quán)衡 分析的層次越深 歧義排除就越充分 分析的層次越深 錯(cuò)誤率也越高 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述9 轉(zhuǎn)換方法 3 形態(tài)生成 源文結(jié)構(gòu) 源文詞串 源文句子 譯文結(jié)構(gòu)結(jié)構(gòu)轉(zhuǎn)換 結(jié)構(gòu)分析 基于轉(zhuǎn)換方法的翻譯流程 結(jié)構(gòu)生成 形態(tài)分析 譯文詞串 譯文句子 詞語(yǔ)轉(zhuǎn)換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述10 句法層面的轉(zhuǎn)換方法 1 她把一束花放在桌上 She put a bunch of flowers on the table 她 r 把 p q v n 一 m d 束 q 花 n v a 放 v 在 p d v 桌 n 上 f v w 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w 切分 標(biāo)注 標(biāo)注排歧 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述11 句法層面的轉(zhuǎn)換方法 2 句法分析 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w 她 zj dj vp vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述12 句法層面的轉(zhuǎn)換方法 3 R 她 NP np SS zj CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花W 她 zj dj vp vp pp 放 ps 上桌在 pp pnp mpn 一束花把 n 句法結(jié)構(gòu)轉(zhuǎn)換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述13 句法層面的轉(zhuǎn)換方法 4 N 她 NP np SS zj CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花W N 她 NP np SS zj CS dj VP vp VP vp V 放W NP pp pNP np NP mp P NP np T 一 N 束 of N 花 PP pp pPP sp P 上 N 桌 句法結(jié)構(gòu)生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述14 句法層面的轉(zhuǎn)換方法 5 She puts a bunch of flowers on table N 她 NP np SS zj CS dj VP vp VP vp W V 放 NP pp pNP np NP mp P NP np T 一 N 束ofN 花 PP pp p PP sp P 上N 桌 詞語(yǔ) 轉(zhuǎn)換 與 詞語(yǔ) 生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述15 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述16 中間語(yǔ)言方法 1 利用一種中間語(yǔ)言 interlingua 作為翻譯的中介 表示形式 整個(gè)翻譯的過(guò)程分為 分析 和 生成 兩個(gè)階段 分析 源語(yǔ)言 中間語(yǔ)言 生成 中間語(yǔ)言 目標(biāo)語(yǔ)言 分析過(guò)程只與源語(yǔ)言有關(guān) 與目標(biāo)語(yǔ)言無(wú)關(guān) 生成過(guò)程只與目標(biāo)語(yǔ)言有關(guān) 與源語(yǔ)言無(wú)關(guān) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述17 中間語(yǔ)言方法 2 中間語(yǔ)言方法的優(yōu)點(diǎn)在于進(jìn)行多語(yǔ)種 翻譯的時(shí)候 只需要對(duì)每種語(yǔ)言分別 開發(fā)一個(gè)分析模塊和一個(gè)生成模塊 模塊總數(shù)為2 n 相比之下 如果采用 轉(zhuǎn)換方法就需要對(duì)每?jī)煞N語(yǔ)言之間都 開發(fā)一個(gè)轉(zhuǎn)換模塊 模塊總數(shù)為n n 1 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述18 中間語(yǔ)言方法 3 語(yǔ)言1語(yǔ)言2 語(yǔ)言4語(yǔ)言3 中間 語(yǔ)言 中間語(yǔ)言方法 語(yǔ)言1語(yǔ)言2 語(yǔ)言4語(yǔ)言3 轉(zhuǎn)換方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述19 中間語(yǔ)言方法 4 中間語(yǔ)言的類型 自然語(yǔ)言 如英語(yǔ) 漢語(yǔ) 人工語(yǔ)言 如世界語(yǔ) 某種知識(shí)表示形式 如語(yǔ)義網(wǎng)絡(luò) 以某種知識(shí)表示形式作為中間語(yǔ)言的機(jī)器 翻譯方法有時(shí)也稱為基于知識(shí)的機(jī)器翻譯 方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述20 中間語(yǔ)言方法 5 Makoto Nagao Kyoto University said when the pivot language i e interlingua is used the results of the analytic stage must be in a form which can be utilized by all of the different languages into which translation is to take place This level of subtlety is a practical impossibility Machine Translation Oxford 1989 Patel Schneider METAL system said METAL employs a modified transfer approach rather than an interlingua If a meta language an interlingua were to be used for translation purposes it would need to incorporate all possible features of many languages That would not only be an endless task but probably a fruitless one as well Such a system would soon become unmanageable and perhaps collapse under its own weight A four valued semantics for terminological reasoning Artificial Intelligence 38 1989 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述21 中間語(yǔ)言方法 6 基于中間語(yǔ)言方法一般都用于多語(yǔ)言的機(jī)器翻譯 系統(tǒng)中 從實(shí)踐看 基于中間語(yǔ)言的機(jī)器翻譯系統(tǒng)還沒(méi)有 比較成功的先例 如日本主持的亞洲五國(guó)語(yǔ)言機(jī) 器翻譯系統(tǒng) 總體上是失敗的 在CSTAR多國(guó)語(yǔ)語(yǔ)音機(jī)器翻譯系統(tǒng)中 曾經(jīng)采用 了一種中間語(yǔ)言方法 其中間語(yǔ)言是一種語(yǔ)義表 示形式 由于語(yǔ)音翻譯都限制在非常狹窄的領(lǐng)域 中 如機(jī)票預(yù)定 語(yǔ)義描述可以做到非常精 確 因此采用中間語(yǔ)言方法有一定的合理性 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述22 中間語(yǔ)言示例 語(yǔ)義網(wǎng)絡(luò) 英語(yǔ) He bought a book on physics 漢語(yǔ) 他買了一本關(guān)于物理學(xué)的書 one physics book buy he 施事受事 數(shù)量 領(lǐng)域 說(shuō)明 這里 后面表示的是概念 而不是英語(yǔ)詞 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述23 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述24 按知識(shí)表示劃分的機(jī)器翻譯方法 基于規(guī)則的機(jī)器翻譯方法 基于實(shí)例的機(jī)器翻譯方法 基于翻譯記憶的機(jī)器翻譯方法 基于模板 模式 的機(jī)器翻譯方法 基于統(tǒng)計(jì)的機(jī)器翻譯方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述25 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述26 基于規(guī)則的方法 1 采用規(guī)則作為知識(shí)表示形式 重疊詞規(guī)則 切分規(guī)則 標(biāo)注規(guī)則 句法分析規(guī)則 語(yǔ)義分析規(guī)則 結(jié)構(gòu)轉(zhuǎn)換規(guī)則 產(chǎn)生譯文句法語(yǔ)義結(jié)構(gòu) 詞語(yǔ)轉(zhuǎn)換規(guī)則 譯詞選擇 結(jié)構(gòu)生成規(guī)則 譯文結(jié)構(gòu)調(diào)整 詞語(yǔ)生成規(guī)則 譯文詞形生成 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述27 基于規(guī)則的方法 2 優(yōu)點(diǎn) 直觀 能夠直接表達(dá)語(yǔ)言學(xué)家的知識(shí) 規(guī)則的顆粒度具有很大的可伸縮性 大顆粒度的規(guī)則具有很強(qiáng)的概括能力 小顆粒度的規(guī)則具有精細(xì)的描述能力 便于處理復(fù)雜的結(jié)構(gòu)和進(jìn)行深層次的理解 如 解決長(zhǎng)距離依賴問(wèn)題 系統(tǒng)適應(yīng)性強(qiáng) 不依賴于具體的訓(xùn)練語(yǔ)料 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述28 基于規(guī)則的方法 3 缺點(diǎn) 規(guī)則主觀因素重 有時(shí)與客觀事實(shí)有一定差距 規(guī)則的覆蓋性差 特別是細(xì)顆粒度的規(guī)則很難 總結(jié)得比較全面 規(guī)則之間的沖突沒(méi)有好的解決辦法 翹翹板現(xiàn) 象 規(guī)則一般只局限于某一個(gè)具體的系統(tǒng) 規(guī)則庫(kù) 開發(fā)成本太高 規(guī)則庫(kù)的調(diào)試極其枯燥乏味 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述29 基于規(guī)則的方法 譯詞選擇 開 v v 主體 是 主體 語(yǔ)義類 植物 V 客體 是 客體 漢字 燈 機(jī) 器 V V D 客體 是 客體 語(yǔ)義類 交通工具 V OTHERWISE V 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述30 基于規(guī)則的方法 結(jié)構(gòu)轉(zhuǎn)換 mp7 mp r mp 內(nèi)部結(jié)構(gòu) 組合定中 mp 定語(yǔ) 內(nèi)部結(jié)構(gòu) 單詞 mp 定語(yǔ) yx 一 mp 量詞子類 集體 種 類 容量 時(shí)量 度量 成形 NP T r NP mp T TNNUM NP NNUM 這一年 mp 定語(yǔ) 內(nèi)部結(jié)構(gòu) 單詞 mp 定語(yǔ) yx 一 mp 量詞子類 個(gè)體 T T r M 這一個(gè) 哪一個(gè) r yx 這 那 IF mp 定語(yǔ) 內(nèi)部結(jié)構(gòu) 單詞 mp 定語(yǔ) yx 一 FALSE NP T r M mp T TNNUM PLUR NNUM PLUR 這兩張 NP T r NP mp T TNNUM PLUR NNUM PLUR r yx 這 那 IF mp 定語(yǔ) 內(nèi)部結(jié)構(gòu) 單詞 mp 定語(yǔ) yx 一 FALSE NP T r M mp NNUM M NNUM NP T r NP mp T TNSUB NP NSUBC 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述31 基于規(guī)則的方法 結(jié)構(gòu)生成 NPMP1 NP T NP T N NP T T NP NP N N this a kind this kind NPATN1 NP AP A NP T N P T T NP NP AP AP A A N N red this book this red book 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述32 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述33 基于語(yǔ)料庫(kù)的機(jī)器翻譯方法 機(jī)器翻譯的實(shí)例方法和統(tǒng)計(jì)方法都是基于語(yǔ)料 庫(kù)的機(jī)器翻譯方法 優(yōu)點(diǎn) 使用語(yǔ)料庫(kù)作為翻譯知識(shí)來(lái)源 無(wú)需人工編寫規(guī) 則 系統(tǒng)開發(fā)成本低 速度快 從語(yǔ)料庫(kù)中學(xué)習(xí)到的知識(shí)比較客觀 從語(yǔ)料庫(kù)中學(xué)習(xí)到的知識(shí)覆蓋性比較好 缺點(diǎn) 系統(tǒng)性能依賴于語(yǔ)料庫(kù) 數(shù)據(jù)稀疏問(wèn)題嚴(yán)重 語(yǔ)料庫(kù)中不容易獲得大顆粒度的高概括性知識(shí) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述34 基于實(shí)例的機(jī)器翻譯 1 長(zhǎng)尾真 Makoto Nagao 在1984年發(fā)表了 采用類比原則進(jìn)行日 英機(jī)器翻 譯的一個(gè)框架 一文 探討日本人初學(xué)英語(yǔ)時(shí)翻譯句子的基本過(guò)程 長(zhǎng)尾 真認(rèn)為 初學(xué)英語(yǔ)的日本人總是記住一些最基本的英語(yǔ)句子以及一些相對(duì) 應(yīng)的日語(yǔ)句子 他們要對(duì)比不同的英語(yǔ)句子和相對(duì)應(yīng)的日語(yǔ)句子 并由此 推論出句子的結(jié)構(gòu) 參照這個(gè)學(xué)習(xí)過(guò)程 在機(jī)器翻譯中 如果我們給出一 些英語(yǔ)句子的實(shí)例以及相對(duì)應(yīng)的日語(yǔ)句子 機(jī)器翻譯系統(tǒng)來(lái)識(shí)別和比較這 些實(shí)例及其譯文的相似之處和相差之處 從而挑選出正確的譯文 長(zhǎng)尾真指出 人類并不通過(guò)做深層的語(yǔ)言學(xué)分析來(lái)進(jìn)行翻譯 人類的翻譯 過(guò)程是 首先把輸入的句子正確地分解為一些短語(yǔ)碎片 接著把這些短語(yǔ) 碎片翻譯成其它語(yǔ)言的短語(yǔ)碎片 最后再把這些短語(yǔ)碎片構(gòu)成完整的句 子 每個(gè)短語(yǔ)碎片的翻譯是通過(guò)類比的原則來(lái)實(shí)現(xiàn)的 因此 我們應(yīng)該在計(jì)算機(jī)中存儲(chǔ)一些實(shí)例 并建立由給定的句子找尋類似 例句的機(jī)制 這是一種由實(shí)例引導(dǎo)推理的機(jī)器翻譯方法 也就是基于實(shí)例 的機(jī)器翻譯 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述35 基于實(shí)例的機(jī)器翻譯 2 在基于實(shí)例的機(jī)器翻譯系統(tǒng)中 系統(tǒng)的主要知識(shí)源是雙語(yǔ) 對(duì)照的翻譯實(shí)例庫(kù) 實(shí)例庫(kù)主要有兩個(gè)字段 一個(gè)字段保 存源語(yǔ)言句子 另一個(gè)字段保存與之對(duì)應(yīng)的譯文 每輸入 一個(gè)源語(yǔ)言的句子時(shí) 系統(tǒng)把這個(gè)句子同實(shí)例庫(kù)中的源語(yǔ) 言句子字段進(jìn)行比較 找出與這個(gè)句子最為相似的句子 并模擬與這個(gè)句子相對(duì)應(yīng)的譯文 最后輸出譯文 基于實(shí)例的機(jī)器翻譯系統(tǒng)中 翻譯知識(shí)以實(shí)例和義類詞典 的形式來(lái)表示 易于增加或刪除 系統(tǒng)的維護(hù)簡(jiǎn)單易行 如果利用了較大的翻譯實(shí)例庫(kù)并進(jìn)行精確的對(duì)比 有可能 產(chǎn)生高質(zhì)量譯文 而且避免了基于規(guī)則的那些傳統(tǒng)的機(jī)器 翻譯方法必須進(jìn)行深層語(yǔ)言學(xué)分析的難點(diǎn) 在翻譯策略上 是很有吸引力的 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述36 基于實(shí)例的機(jī)器翻譯 3 優(yōu)點(diǎn) 直接使用對(duì)齊的語(yǔ)料庫(kù)作為知識(shí)表示形式 知 識(shí)庫(kù)的擴(kuò)充非常簡(jiǎn)單 不需要進(jìn)行深層次的語(yǔ)言分析 也可以產(chǎn)生高 質(zhì)量的譯文 缺點(diǎn) 覆蓋率低 實(shí)用的系統(tǒng)需要的語(yǔ)料庫(kù)規(guī)模極大 百萬(wàn)句對(duì)以上 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述37 基于實(shí)例的機(jī)器翻譯系統(tǒng)結(jié)構(gòu) 組合變換式 源語(yǔ)言文本 目標(biāo)語(yǔ)言文本 對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù) 比較應(yīng)用 目標(biāo)語(yǔ)言實(shí)例源語(yǔ)言實(shí)例對(duì)齊 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述38 基于實(shí)例的機(jī)器翻譯 舉例 要翻譯句子 E1 He bought a book on physics 在語(yǔ)料庫(kù)中查到相似英語(yǔ)句子及其漢語(yǔ)譯文是 E2 He wrote a book on history C2 他寫了一本關(guān)于歷史的書 比較 E1 和 E2 兩個(gè)句子 我們得到變換式 T1 replace wrote bought and replace history physics 將這個(gè)變換式中的單詞都換成漢語(yǔ)就變成 T2 replace 寫 買 and replace 歷史 物理 將 T2 作用于 C2 C1 他買了一本關(guān)于物理學(xué)的書 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述39 基于實(shí)例的機(jī)器翻譯 需要研究的問(wèn)題 正確地進(jìn)行雙語(yǔ)自動(dòng)對(duì)齊 alignment 在實(shí)例庫(kù)中要能準(zhǔn)確地由源語(yǔ)言例句找到 相應(yīng)的目標(biāo)語(yǔ)言例句 在基于實(shí)例的機(jī)器翻譯系統(tǒng)的具體實(shí)現(xiàn)中 不僅要求句子 一級(jí)的對(duì)齊 而且還要求詞匯一級(jí)甚至短語(yǔ)一級(jí)的對(duì)齊 建立有效的實(shí)例匹配檢索機(jī)制 很多研究者認(rèn)為 基于實(shí)例的機(jī)器翻譯的潛力在 于充分利用短語(yǔ)一級(jí)的實(shí)例碎片 也就是在短語(yǔ)一級(jí)進(jìn)行對(duì)齊 但是 利用的實(shí) 例碎片越小 碎片的邊界越難于確定 歧義情況越多 從而導(dǎo)致翻譯質(zhì)量的下 降 為此 要建立一套相似度準(zhǔn)則 similarity metric 以便確定兩個(gè)句子或者短 語(yǔ)碎片是否相似 根據(jù)檢索到的實(shí)例生成與源語(yǔ)言句子相對(duì)應(yīng)的譯文 由于基于實(shí)例的機(jī)器翻譯對(duì) 源語(yǔ)言的分析比較粗 生成譯文時(shí)往往缺乏必要的信息 為了提高譯文生成的質(zhì) 量 可以考慮把基于實(shí)例的機(jī)器翻譯與傳統(tǒng)的基于規(guī)則的機(jī)器翻譯方法結(jié)合起 來(lái) 對(duì)源語(yǔ)言也進(jìn)行一定深度的分析 開展淺層句法分析 shallow parsing 的研究 淺層句法分析以建立語(yǔ)段 chunk 之 間的依附關(guān)系為目標(biāo) 進(jìn)行語(yǔ)段的識(shí)別 分析語(yǔ)段之間的依附關(guān)系 由于分析的 語(yǔ)言單位的顆粒度比較大 歧義就比較少 有利于提高雙語(yǔ)對(duì)齊的準(zhǔn)確度 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述40 實(shí)例庫(kù)的匹配 1 實(shí)例匹配的目的是將輸入句子分解成語(yǔ)料庫(kù)中實(shí) 例片斷的組合 這是基于實(shí)例的機(jī)器翻譯的關(guān)鍵 問(wèn)題之一 實(shí)例匹配的各種方法有很大的差異 還沒(méi)有那種做法顯示出明顯的優(yōu)勢(shì) 實(shí)例庫(kù)匹配的效率問(wèn)題 由于實(shí)例庫(kù)規(guī)模較大 通常需要建立倒排索引 實(shí)例庫(kù)匹配的其他問(wèn)題 實(shí)例片斷的分解 實(shí)例片斷的組合 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述41 實(shí)例庫(kù)的匹配 2 實(shí)例片斷的分解 實(shí)例庫(kù)中的句子往往太長(zhǎng) 直接匹配成功率太 低 為了提高實(shí)例的重用性 需要將實(shí)例庫(kù)中 的句子分解為片斷 幾種通常的做法 按標(biāo)點(diǎn)符號(hào)分解 任意分解 通過(guò)組塊分析進(jìn)行分解 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述42 實(shí)例庫(kù)的匹配 3 實(shí)例片斷的組合 一個(gè)被翻譯的句子 往往可以通過(guò)各種不同的 實(shí)例片斷進(jìn)行組合 如何選擇一個(gè)最好的組 合 簡(jiǎn)單的做法 最大匹配 最大概率法 選擇概率乘積最大的片斷組合 有點(diǎn)像漢語(yǔ)詞語(yǔ)切分問(wèn)題 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述43 片斷譯文的選擇 由于語(yǔ)料庫(kù)中一個(gè)片斷可能有多種翻譯方 法 因此存在片斷譯文的選擇問(wèn)題 常用的方法 根據(jù)片斷上下文進(jìn)行排歧 根據(jù)譯文的語(yǔ)言模型選擇概率最大的譯文片斷 組合 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述44 基于實(shí)例的機(jī)器翻譯系統(tǒng) MBT1和MBT2系統(tǒng) 由日本京都大學(xué)長(zhǎng)尾真和佐藤研制 該系統(tǒng)的翻譯過(guò) 程分為分解 decomposition 轉(zhuǎn)換 transfer 合成 composition 三 步 在分解階段 系統(tǒng)根據(jù)提交的源語(yǔ)言詞匯依存樹檢索實(shí)例庫(kù) 并利 用檢索到的實(shí)例碎片來(lái)表示該源語(yǔ)言句子的依存樹 形成源匹配表達(dá) 式 在轉(zhuǎn)換階段 系統(tǒng)利用實(shí)例庫(kù)中的對(duì)齊信息將源匹配表達(dá)式轉(zhuǎn)換成 目標(biāo)匹配表達(dá)式 在合成階段 將目標(biāo)匹配表達(dá)式展開成為目標(biāo)語(yǔ)言詞 匯依存樹 輸出譯文 PANGLOSS系統(tǒng) 由美國(guó)卡內(nèi)基 梅隆大學(xué)研制 這是一個(gè)多引擎機(jī)器翻譯 系統(tǒng) Multi engine Machine Translation 這個(gè)系統(tǒng)的主要引擎是基 于知識(shí)的機(jī)器翻譯系統(tǒng) 基于實(shí)例的機(jī)器翻譯系統(tǒng)只是它的一個(gè)引擎 為整個(gè)多引擎機(jī)器系統(tǒng)提供候選結(jié)果 ETOC和EBMT系統(tǒng) 由日本口語(yǔ)翻譯通信研究實(shí)驗(yàn)室 ATR研制 ETOC系統(tǒng) 能夠檢索出與給定的源語(yǔ)言句子相似的實(shí)例 EBMT系統(tǒng)能夠利用實(shí)例庫(kù) 來(lái)消解歧義 這兩個(gè)基于實(shí)例的機(jī)器翻譯系統(tǒng)還不完整 我國(guó)清華大學(xué)計(jì)算機(jī)系的基于實(shí)例的日漢機(jī)器翻譯系統(tǒng) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述45 翻譯記憶方法 1 翻譯記憶方法 Translation Memory 是基于實(shí)例 方法的特例 也可以把基于實(shí)例的方法理解為廣義的翻譯記憶 方法 翻譯記憶的基本思想 把已經(jīng)翻譯過(guò)的句子保存起來(lái) 翻譯新句子時(shí) 直接到語(yǔ)料庫(kù)中去查找 如果發(fā)現(xiàn)相同的句子 直接輸出譯文 否則交給人去翻譯 但可以提供相似的句子的參考譯文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述46 翻譯記憶方法 2 翻譯記憶方法主要被應(yīng)用于計(jì)算機(jī)輔助翻 譯 CAT 軟件中 翻譯記憶方法的優(yōu)缺點(diǎn) 翻譯質(zhì)量有保證 隨著使用時(shí)間的增加匹配成功率逐步提高 特別適用于重復(fù)率高的文本翻譯 例如公司的產(chǎn)品說(shuō) 明書的新版本翻譯 與語(yǔ)言無(wú)關(guān) 適用于各種語(yǔ)言對(duì) 缺點(diǎn)是匹配成功率不高 特別是剛開始使用時(shí) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述47 翻譯記憶方法 3 計(jì)算機(jī)輔助翻譯 CAT 軟件已經(jīng)形成了比較成熟的產(chǎn)業(yè) TRADOS 號(hào)稱占有國(guó)際CAT市場(chǎng)的70 Microsoft Siemens SAP等國(guó)際大公司和一些著名的國(guó)際組織都是 其用戶 雅信CAT 適合中國(guó)人的習(xí)慣 產(chǎn)品已比較成熟 國(guó)際組織 LISA Localisation Industry Standards Association 面向用戶 專業(yè)翻譯人員 數(shù)據(jù)交換 LISA制定了TMX Translation Memory eXchange 標(biāo)準(zhǔn) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述48 翻譯記憶方法 4 完整的計(jì)算機(jī)輔助翻譯軟件除了包括翻譯記憶功 能以外 還應(yīng)該包括以下功能 多種文件格式的分解與合成 術(shù)語(yǔ)庫(kù)管理功能 語(yǔ)料庫(kù)的句子對(duì)齊 歷史資料的重復(fù)利用 項(xiàng)目管理 翻譯任務(wù)的分解與合并 翻譯工作量的估計(jì) 數(shù)據(jù)共享和數(shù)據(jù)交換 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述49 翻譯記憶方法 5 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述50 基于模板 模式 的機(jī)器翻譯方法 1 基于模板 Template 或者模式 Pattern 的機(jī)器翻譯 方法通常也被看做基于實(shí)例的機(jī)器翻譯方法的一種延伸 所謂 翻譯模板 或者 翻譯模式 可以認(rèn)為是一種顆粒度介 于 翻譯規(guī)則 和 翻譯實(shí)例 之間的翻譯知識(shí)表示形式 翻譯規(guī)則 顆粒度大 匹配可能性大 但過(guò)于抽象 容易出錯(cuò) 翻譯實(shí)例 顆粒度小 不易出錯(cuò) 但過(guò)于具體 匹配可能性小 翻譯模板 模式 介于二者之間 是一種比較合適的知識(shí)表示 形式 一般而言 單語(yǔ)模板 或模式 是一個(gè)常量和變量組成 的字符串 翻譯模板 或模式 是兩個(gè)對(duì)應(yīng)的單語(yǔ)模板 或模式 兩個(gè)模板之間的變量存在意義對(duì)應(yīng)關(guān)系 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述51 基于模板 模式 的機(jī)器翻譯方法 2 模板舉例 這個(gè) X 比 Y 更 Z The X is more Z than Y 模板方法的主要問(wèn)題 對(duì)模板中變量的約束 模板抽取 模板的沖突消解 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述52 模板的自動(dòng)提取 利用一對(duì)實(shí)例進(jìn)行泛化 Jaime G Carbonell Ralf D Brown Generalized Example Based Machine Translation http www lti cs cmu edu Research GEBMT 利用兩對(duì)實(shí)例進(jìn)行比較 H Altay Guvenir Ilyas Cicekli Learning Translation Templates from Examples Information Systems 1998 張健 基于實(shí)例的機(jī)器翻譯的泛化方法研究 中科院 計(jì)算所碩士論文 2001 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述53 通過(guò)泛化實(shí)例得到翻譯模板 已有實(shí)例 Karl Marx was born in Trier Germany in May 5 1818 卡爾 馬克思于1818年5月5日出生在德國(guó)特里爾城 泛化 was born in in 于出生在 對(duì)齊 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述54 通過(guò)比較實(shí)例得到翻譯模板 已有兩對(duì)翻譯實(shí)例 我給瑪麗一支筆 I gave Mary a pen 我給湯姆一本書 I gave Tom a book 雙側(cè)單語(yǔ)句子分別比較 得到 我 給 X 一 Y Z I give W a U 查找變量的對(duì)應(yīng)關(guān)系 X W Y Z U 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述55 內(nèi)容提要 機(jī)器翻譯方法 按轉(zhuǎn)換層面劃分 直接翻譯方法 句法轉(zhuǎn)換方法 語(yǔ)義轉(zhuǎn)換方法 中間語(yǔ)言方法 機(jī)器翻譯方法 按知識(shí)表示形式劃分 基于規(guī)則的方法 基于實(shí)例的方法 含模板方法 翻譯記憶方法 統(tǒng)計(jì)方法統(tǒng)計(jì)方法 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述56 統(tǒng)計(jì)機(jī)器翻譯 統(tǒng)計(jì)機(jī)器翻譯概述 歷史回顧 一些重要事件回放 一種新的研究范式 統(tǒng)計(jì)機(jī)器翻譯論文發(fā)表數(shù)量的增長(zhǎng) 近年來(lái)國(guó)際機(jī)器翻譯評(píng)測(cè)的最好成績(jī) 統(tǒng)計(jì)機(jī)器翻譯目前的水平 統(tǒng)計(jì)機(jī)器翻譯的優(yōu)缺點(diǎn) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述57 統(tǒng)計(jì)機(jī)器翻譯概述 統(tǒng)計(jì)機(jī)器翻譯也是基于語(yǔ)料庫(kù)的機(jī)器翻譯方法 不需要人工撰寫規(guī)則 而是從語(yǔ)料庫(kù)中獲取翻譯 知識(shí) 這一點(diǎn)與基于實(shí)例的方法相同 為翻譯建立統(tǒng)計(jì)模型 把翻譯理解為搜索問(wèn)題 即從所有可能的譯文中選擇概率最大的譯文 基 于實(shí)例的機(jī)器翻譯無(wú)需建立統(tǒng)計(jì)模型 與基于實(shí)例的方法的區(qū)別在于 基于實(shí)例的機(jī)器 翻譯中 語(yǔ)言知識(shí)表現(xiàn)為實(shí)例本身 而統(tǒng)計(jì)機(jī)器 翻譯中 翻譯知識(shí)表現(xiàn)為模型參數(shù) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述58 歷史回顧 一些重要事件回放 1 1990年代初IBM首次開展統(tǒng)計(jì)機(jī)器翻譯研究 1999年JHU夏季研討班重復(fù)了IBM的工作并推出 了開放源代碼的工具 2001年IBM提出了機(jī)器翻譯自動(dòng)評(píng)測(cè)方法BLEU 2002年NIST開始舉行每年一度的機(jī)器翻譯評(píng)測(cè) 2002年第一個(gè)采用統(tǒng)計(jì)機(jī)器翻譯方法的商業(yè)公司 Language Weaver成立 2002年Franz Josef Och提出統(tǒng)計(jì)機(jī)器翻譯的對(duì)數(shù) 線性模型 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述59 歷史回顧 一些重要事件回放 2 2003年Franz Josef Och提出對(duì)數(shù)線性模型的最小錯(cuò)誤率 訓(xùn)練方法 2004年P(guān)hilipp Koehn推出Pharaoh 法老 標(biāo)志著基于短 語(yǔ)的統(tǒng)計(jì)翻譯方法趨于成熟 2005年David Chiang提出層次短語(yǔ)模型并代表UMD在 NIST評(píng)測(cè)中取得好成績(jī) 2005年Google在NIST評(píng)測(cè)中大獲全勝 隨后Google推出 基于統(tǒng)計(jì)方法的在線翻譯工具 其阿拉伯語(yǔ) 英語(yǔ)的翻譯 達(dá)到了用戶完全可接受的水平 2006年NIST評(píng)測(cè)中USC ISI的樹到串句法模型第一次超過(guò) Google 僅在漢英受限翻譯項(xiàng)目中 2007年Google推出采用統(tǒng)計(jì)機(jī)器翻譯技術(shù)的跨語(yǔ)言檢索 網(wǎng)站 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述60 統(tǒng)計(jì)機(jī)器翻譯 一種新的研究范式 統(tǒng)計(jì)機(jī)器翻譯的成功在于采用了一種新的研究范 式 paradigm 這種研究范式已在語(yǔ)音識(shí)別等領(lǐng)域中被證明是一 種成功的翻譯 但在機(jī)器翻譯中是首次使用 這種范式的特點(diǎn) 公開的大規(guī)模的訓(xùn)練數(shù)據(jù) 周期性的公開評(píng)測(cè)和研討 開放源碼的工具 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述61 近年來(lái)統(tǒng)計(jì)機(jī)器翻譯論文發(fā)表數(shù)量 引自 Franz Josef Och Statistical Machine Translation Foundations and Recent Advances Tutorials on MT Summit X September 13 15 2005 Phuket Thailand 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述62 近年來(lái)國(guó)際NIST評(píng)測(cè)最好成績(jī) 0 0 1 0 2 0 3 0 4 0 5 0 6 漢語(yǔ) 英語(yǔ)阿拉伯語(yǔ) 英語(yǔ) BLEU4 2002 2003 2004 2005 2006 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述63 Results on NIST 2006 Evaluation Large Data Track NIST Subset 0 0 05 0 1 0 15 0 2 0 25 0 3 0 35 0 0 05 0 1 0 15 0 2 0 25 0 3 0 35 isiisi googlegoogle lwlw rwthrwth ictict edinburghedinburgh bbnbbn nrcnrc itcirstitcirst umd jhuumd jhu nttntt nictnict cmucmu msrmsr qmulqmul hkusthkust upcupc upennupenn 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述64 統(tǒng)計(jì)機(jī)器翻譯目前的水平 以Google Translator為例 實(shí)地考察一下 統(tǒng)計(jì)機(jī)器翻譯的水平 阿拉伯語(yǔ) 英語(yǔ) 漢語(yǔ) 英語(yǔ) 英語(yǔ) 漢語(yǔ) 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述65 Google Translator 阿拉伯語(yǔ) 英語(yǔ) 半島電視臺(tái) 網(wǎng)站新聞 阿拉伯語(yǔ)原文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述66 Google Translator 阿拉伯語(yǔ) 英語(yǔ) Google 的 英文譯文 半島電視臺(tái) 網(wǎng)站新聞 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述67 Google Translator 阿拉伯語(yǔ) 英語(yǔ) Receives American President George Bush at the White House next week the spiritual leader of Buddhists in Tibet the Dalai Lama in a step likely to upset China And Bush will meet with the Dalai Lama in the framework of special away from the media as White House spokesman Gordon Jondro as it did in the past Bush will attend the next day in Washington a ceremony which officially imitate Congress Dalai Lama Congressional Gold Medal the highest decoration that can be granted by Congress The granting of the medal ceremony will be the first time that Bush is displayed publicly with the Dalai Lama who has previously visited the White House but always in informal meetings China replied angrily when the American Congress decided to grant the Dalai Lama medal and denounced the resolution saying that interference in their internal affairs 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述68 Google Translator 漢語(yǔ) 英語(yǔ) 新浪新聞 中文原文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述69 Google Translator 漢語(yǔ) 英語(yǔ) 新浪新聞 Google 的 英文譯文 機(jī)器翻譯原理與方法講義 02 機(jī)器翻譯方法概述70 Google Translator 漢語(yǔ) 英語(yǔ) 土耳其歷屆政府均對(duì)此予以否認(rèn) 認(rèn)為這是奧斯曼帝國(guó)崩潰過(guò)程中出現(xiàn) 的非正常死亡 Turkey successive governments have denied this believing that this is the collapse of the Ottoman Empire appeared in the process of unnatural deaths 語(yǔ)序混亂 土耳其認(rèn)為 那些人死于當(dāng)時(shí)的內(nèi)戰(zhàn)和社會(huì)動(dòng)蕩 而且這一數(shù)字被夸大 了 Turkey believes that those who died at that time of

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論