已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器翻譯概述 常寶寶 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所 chbb 什么是機(jī)器翻譯 研究目標(biāo) 研制出能把一種自然語(yǔ)言 源語(yǔ)言 的文 本翻譯為另外一種自然語(yǔ)言 目標(biāo)語(yǔ)言 的文本的計(jì) 算機(jī)軟件系統(tǒng) 制造一種機(jī)器 讓使用不同語(yǔ)言的人無(wú)障礙地自由交 流 一直是人類的一個(gè)夢(mèng)想 隨著國(guó)際互聯(lián)網(wǎng)絡(luò)的日益普及 網(wǎng)上出現(xiàn)了以各種語(yǔ) 言為載體的大量信息 語(yǔ)言障礙問(wèn)題在新的時(shí)代又一 次凸顯出來(lái) 人們比以往任何時(shí)候都更迫切需要語(yǔ)言 的自動(dòng)翻譯系統(tǒng) 但機(jī)器翻譯是一個(gè)極為困難的研究課題 無(wú)論目前對(duì) 它的需求多么迫切 全自動(dòng)高質(zhì)量的機(jī)器翻譯系統(tǒng) FAHQMT 仍將是人類一個(gè)遙遠(yuǎn)的夢(mèng) 機(jī)器翻譯的基本方法 機(jī)器翻譯的基本方法 基于規(guī)則的機(jī)器翻譯方法 直接翻譯法 轉(zhuǎn)換法 中間語(yǔ)言法 基于語(yǔ)料庫(kù)的機(jī)器翻譯方法 基于統(tǒng)計(jì)的方法 基于實(shí)例的方法 混合式機(jī)器翻譯方法 目前沒(méi)有任何 一種方法能實(shí)現(xiàn)機(jī) 器翻譯的完美理 想 但在方法論方 面的探索已經(jīng)使得 人們對(duì)機(jī)器翻譯問(wèn) 題的認(rèn)識(shí)更加深 刻 而且也確實(shí)帶 動(dòng)了不少雖不完美 但尚可使用的產(chǎn)品 問(wèn)世 機(jī)器翻譯的基本方法 20世紀(jì)90年代以前 機(jī)器翻譯方法的主流一直是基于 規(guī)則的方法 因此基于規(guī)則的方法也被稱為傳統(tǒng)的機(jī) 器翻譯方法 直接翻譯法 逐詞進(jìn)行翻譯 又稱逐詞翻譯法 word for word translation 無(wú)需對(duì)源語(yǔ)言文本進(jìn)行分析 對(duì)翻譯過(guò)程的認(rèn)識(shí)過(guò)渡簡(jiǎn)化 忽視了不同語(yǔ)言之間 在詞序 詞匯 結(jié)構(gòu)等方面的差異 翻譯效果差 屬于早期過(guò)時(shí)認(rèn)識(shí) 現(xiàn)已無(wú)人采用 How are you 怎么 是 你 How old are you 怎么 老 是 你 機(jī)器翻譯的基本方法 中間語(yǔ)言法 interlingua approach 中間語(yǔ)言 interlingua 是一種中間表達(dá) 通常是一種句 法 語(yǔ)義表達(dá) syntactic semantic expression 中間語(yǔ)言獨(dú)立 于任何具體的自然語(yǔ)言 源文本經(jīng)過(guò)深層分析得到其對(duì)應(yīng)的中間語(yǔ)言表示 再由該中間表示生成目標(biāo)語(yǔ)文本 翻譯過(guò)程為兩個(gè)階段 機(jī)器翻譯的基本方法 不同系統(tǒng)采用不同的中間語(yǔ)言 有的是一種邏輯形 式的語(yǔ)言 有的甚至采用類似自然語(yǔ)言的人工語(yǔ) 言 如 荷蘭政府支持的DLT計(jì)劃采用世界語(yǔ) Esperanto做中間語(yǔ)言 中間語(yǔ)言法在理論上非常經(jīng)濟(jì) 可有效減少翻譯模 塊的數(shù)量 可把n n 1 個(gè)直接翻譯模塊減少為2n個(gè) 翻譯模塊 機(jī)器翻譯的基本方法 把任何一種自然語(yǔ)言翻譯成為一種獨(dú)立的中間語(yǔ) 言 需要深層次的語(yǔ)言分析和生成技術(shù) 目前沒(méi)有 特別成功的基于中間語(yǔ)言的機(jī)器翻譯系統(tǒng) 轉(zhuǎn)換法 transfer approach 分析源語(yǔ)言文本 得到源語(yǔ)言的內(nèi)部表達(dá) 將源語(yǔ)言內(nèi)部表達(dá)轉(zhuǎn)換成目標(biāo)語(yǔ)內(nèi)部表達(dá) 根據(jù)目標(biāo)語(yǔ)內(nèi)部表達(dá)生成目標(biāo)語(yǔ)文本 翻譯過(guò)程分成三個(gè)階段 機(jī)器翻譯的基本方法 不同系統(tǒng)采用不同層次內(nèi)部表示 例如淺層句法表 示或深層句法語(yǔ)義表示 商業(yè)上最為成功的方法 目前絕大部分商品化機(jī)器 翻譯系統(tǒng)采用轉(zhuǎn)換式機(jī)器翻譯方法 基于知識(shí)的機(jī)器翻譯方法 knowledge based machine translation 20世紀(jì)70年代 受人工智能 知識(shí)工程發(fā)展的影 響 而提出 強(qiáng)調(diào)對(duì)源語(yǔ)言進(jìn)行更為徹底的分析和理解 不僅進(jìn)行深層語(yǔ)言學(xué)分析 還需要進(jìn)行世界知識(shí) world knowledge 的顯式處理 需要建立對(duì)語(yǔ)言理解有益的本體知識(shí)庫(kù) ontology 機(jī)器翻譯的基本方法 研制代價(jià)昂貴 沒(méi)有特別成功的案例 基于規(guī)則的翻譯方法圖示 機(jī)器翻譯的基本方法 20世紀(jì)80年代中后期 基于語(yǔ)料庫(kù)的機(jī)器翻譯技術(shù)得 到越來(lái)越多的關(guān)注 試圖避開(kāi)知識(shí)庫(kù)建設(shè)的困難 試圖回避對(duì)源語(yǔ)言進(jìn)行深層語(yǔ)言分析 翻譯知識(shí)主要來(lái)自雙語(yǔ)平行語(yǔ)料庫(kù) 基于實(shí)例的翻譯通過(guò)模仿實(shí)例庫(kù)中已有的翻譯基于 類比的策略進(jìn)行翻譯 基于統(tǒng)計(jì)的機(jī)翻譯通過(guò)建立統(tǒng)計(jì)翻譯模型 訓(xùn)練統(tǒng) 計(jì)模型進(jìn)而基于統(tǒng)計(jì)模型進(jìn)行翻譯 考慮到這些方法背后的哲學(xué)背景 也常把基于規(guī)則的 方法稱為理性主義 rationalism 方法 而把基于語(yǔ)料庫(kù)的 方法稱為經(jīng)驗(yàn)主義 empiricism 方法 機(jī)器翻譯的使用 總而言之 無(wú)論采用何種機(jī)器翻譯方法 目前的機(jī)器 翻的譯文質(zhì)量都還遠(yuǎn)不能令人滿意 但并不能說(shuō)明機(jī) 器翻譯一無(wú)是處 機(jī)器翻譯在許多應(yīng)用場(chǎng)合已在發(fā)揮 作用 翻譯需求的種類 傳播型翻譯需求 information dissemination 希望將自己的信息傳播出去 跨國(guó)企業(yè)的產(chǎn)品說(shuō)明 技術(shù)資料 吸收型翻譯需求 information assimilation 希望了解以自己所不通曉的語(yǔ)言為載體的信息 科學(xué)工作者之于科技文獻(xiàn) 機(jī)器翻譯的使用 對(duì)于信息傳播型用戶而言 譯文質(zhì)量十分關(guān)鍵 跨國(guó)公司的所有技術(shù)資料都應(yīng) 準(zhǔn)確翻譯 不存在妥協(xié)的可能 目前機(jī)器翻譯似乎難以發(fā)揮作用 但跨國(guó)公司產(chǎn)品數(shù)量有限 領(lǐng)域狹窄 可采用子語(yǔ) 言技術(shù)以及后編輯 post edit 技術(shù) 機(jī)器輔助翻譯技術(shù)和翻譯記憶 translation memory 技術(shù)廣 泛使用 機(jī)器翻譯也可較好保證術(shù)語(yǔ)翻譯的一致性 機(jī)器翻譯的使用 對(duì)于信息吸收型用戶而言 往往面臨太多的文獻(xiàn)需要瀏覽 但并非對(duì)所有文獻(xiàn) 都有興趣 機(jī)器可以提供一個(gè)初步的翻譯 雖不準(zhǔn)確 但可傳 達(dá)文獻(xiàn)的總體思想 有利于用戶定位文獻(xiàn) 對(duì)于選出的文獻(xiàn) 可以聘請(qǐng)專人進(jìn)行譯后編輯或聘 請(qǐng)專家進(jìn)行翻譯 同聘請(qǐng)翻譯人員相比 機(jī)器翻譯具有廉價(jià)和高速的 優(yōu)勢(shì) 機(jī)器翻譯的使用 目前機(jī)器翻譯的價(jià)值不在于它可以取代翻譯專家 而在 于它可在一個(gè)完整翻譯過(guò)程的部分環(huán)節(jié)中有所貢獻(xiàn) 機(jī)器翻譯的價(jià)值也體現(xiàn)在它可以帶來(lái)翻譯生產(chǎn)率的提高 和翻譯成本的降低這兩個(gè)方面 互聯(lián)網(wǎng)時(shí)代對(duì)機(jī)器翻譯的新需求 1 網(wǎng)頁(yè)的翻譯 2 網(wǎng)絡(luò)聊天室 技術(shù)論壇中用戶交談的實(shí)時(shí)翻譯 3 跨語(yǔ)言信息檢索 Cross Language Information Retrieval 4 跨語(yǔ)言的信息提取 規(guī)則系統(tǒng)中的知識(shí)表示 開(kāi)發(fā)基于規(guī)則的機(jī)器翻譯系統(tǒng) 首先要設(shè)計(jì)知識(shí)表示 系統(tǒng) 將翻譯過(guò)程中所需要的知識(shí)以計(jì)算機(jī)可以操作 的形式表述出來(lái) 一般而言 翻譯過(guò)程往往需要下述一些知識(shí)的支撐 一 源語(yǔ)言知識(shí) 系統(tǒng)利用源語(yǔ)言知識(shí)分析源語(yǔ)言 句子 得到源語(yǔ)言句子的結(jié)構(gòu)和意義 二 目標(biāo)語(yǔ)言知識(shí) 系統(tǒng)利用目標(biāo)語(yǔ)言知識(shí) 產(chǎn)生 可以接受的目標(biāo)語(yǔ)言句子 三 源語(yǔ)言到目標(biāo)語(yǔ)言的對(duì)譯知識(shí) 在基于轉(zhuǎn)換的 系統(tǒng)中 系統(tǒng)需要根據(jù)各種級(jí)別的對(duì)應(yīng)關(guān)系來(lái)完成 源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換 最基本的是詞之間的對(duì) 譯知識(shí) 規(guī)則系統(tǒng)中的知識(shí)表示 四 領(lǐng)域知識(shí)和世界知識(shí) 利用源語(yǔ)言知識(shí) 目標(biāo) 語(yǔ)言知識(shí) 在領(lǐng)域知識(shí)和世界知識(shí)的協(xié)助下 可以 更好地完成對(duì)源語(yǔ)言的理解和目標(biāo)語(yǔ)言的生成 五 有關(guān)社會(huì) 文化和習(xí)俗的知識(shí) 在人工翻譯 中 這些知識(shí)也起著重要作用 但鑒于目前的處理 水平 幾乎沒(méi)有機(jī)器翻譯系統(tǒng)把該類知識(shí)納入處理 范圍 人們目前還缺乏有效方法把這些知識(shí)以機(jī)器 可以操作的方式描述出來(lái) 規(guī)則系統(tǒng)中的知識(shí)表示 詞典詞典 機(jī)器翻譯系統(tǒng)中 有關(guān)詞的知識(shí)記錄在詞典中 源 語(yǔ)言的形態(tài)知識(shí) 句法知識(shí)和語(yǔ)義知識(shí)記錄在源語(yǔ) 言詞典 源語(yǔ) 言詞典中 目標(biāo)語(yǔ)言的形態(tài)知識(shí) 句法知識(shí)等記錄 在目標(biāo)語(yǔ)言詞典目標(biāo)語(yǔ)言詞典中 詞語(yǔ)間的對(duì)譯關(guān)系則記錄在對(duì) 譯詞典 對(duì) 譯詞典中 規(guī)則 為了源語(yǔ)言句子分析和目標(biāo)語(yǔ)言句子生成的需要 還需要有關(guān)句子結(jié)構(gòu)的知識(shí) 句子或短語(yǔ)的組成規(guī) 律用規(guī)則規(guī)則描述 源語(yǔ)言和目標(biāo)語(yǔ)言結(jié)構(gòu)間的對(duì)應(yīng)關(guān) 系一般用轉(zhuǎn)換規(guī)則轉(zhuǎn)換規(guī)則來(lái)表達(dá) 規(guī)則系統(tǒng)的基本流程 詞法分析 句法分析 語(yǔ)義分析 結(jié)構(gòu)轉(zhuǎn)換 句子生成 譯詞選擇 形態(tài)生成 源語(yǔ)言文本目標(biāo)語(yǔ)言文本 詞法分析 語(yǔ)法分析 語(yǔ)義分析 子生成 譯詞選擇 形態(tài)生成 結(jié)構(gòu)轉(zhuǎn)換 詞典 規(guī)則庫(kù) 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 分和標(biāo)注 她 r 把 p 一 m 束 q 花 n 放 v 在 p 桌 n 上 f w 法分析 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 結(jié)構(gòu)轉(zhuǎn)換 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 結(jié)構(gòu)調(diào)整 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 規(guī)則翻譯方法例示 輸入 她把一束花放在桌上 譯詞選擇 她 she放 place一 a束 bunch 花 flower上 on桌 table 輸出 She puts a bunch of flowers on table 基于實(shí)例的機(jī)器翻譯 Example Based Machine Translation EBMT 1984年由日本著名機(jī)器翻譯專家長(zhǎng)尾真提出 背景 建立在轉(zhuǎn)換基礎(chǔ)上的機(jī)器翻譯系統(tǒng) 在差異較大語(yǔ) 言對(duì)間進(jìn)行互譯時(shí) 效果不好 人在翻譯時(shí)不做深層次語(yǔ)言學(xué)分析 人在學(xué)外語(yǔ)的時(shí)候 首先要作大量的對(duì)照記憶 在 遇到新的句子時(shí) 會(huì)和記憶中的句子類比 建立基于類比思想的機(jī)器翻譯 基于實(shí)例的機(jī)器翻譯 基本思想 主要知識(shí)庫(kù)是雙語(yǔ)對(duì) 照的實(shí)例庫(kù) 當(dāng)需要翻譯一個(gè)新句 子時(shí) 通過(guò)檢索的辦 法在實(shí)例庫(kù)中尋找和 該句類似的翻譯實(shí) 例 新句子的翻譯可通過(guò) 模擬最類似的實(shí)例的 譯文的方式獲得 基于實(shí)例的機(jī)器翻譯 EBMT的優(yōu)點(diǎn) 系統(tǒng)維護(hù)容易 系統(tǒng)中知識(shí)以翻譯實(shí)例和義類詞典等形式存在 可以很容 易的利用增加實(shí)例和詞匯的方式擴(kuò)充系統(tǒng) 容易產(chǎn)生高質(zhì)量的譯文 尤其是利用了較大的翻譯實(shí)例或和實(shí)例精確匹配時(shí)更是如 此 可避免進(jìn)行深層次的語(yǔ)言學(xué)分析 類義詞典的作用 The rabbit eats vegetables Sulfuric acid eats metal He eats apple 基于實(shí)例的機(jī)器翻譯 EBMT的關(guān)鍵問(wèn)題 大規(guī)模的雙語(yǔ)語(yǔ)料庫(kù) 雙語(yǔ)對(duì)齊問(wèn)題 語(yǔ)篇 句子 短語(yǔ)和詞匯等各種級(jí)別 建立合理的相似度準(zhǔn)則 高效的實(shí)例檢索機(jī)制 譯文生成 翻譯記憶技術(shù)和基于模板的翻譯技術(shù) 基于統(tǒng)計(jì)的機(jī)器翻譯 Statistic Based Machine Translation SBMT 翻譯問(wèn)題是解密問(wèn)題 50年代初曾有提及 遭到以Chomsky為代表的 語(yǔ)言學(xué)家的反對(duì) 90年代初 統(tǒng)計(jì)翻譯技術(shù)復(fù)蘇 統(tǒng)計(jì)技術(shù)在語(yǔ)音識(shí)別領(lǐng)域獲得成功 目前計(jì)算機(jī)性能已能勝任密集型計(jì)算 目前也有大量聯(lián)機(jī)雙語(yǔ)電子文本 Pr argmax STT T Pr Pr Pr Pr S TST ST 基于統(tǒng)計(jì)的機(jī)器翻譯 翻譯問(wèn)題可用噪聲信道來(lái)描述 T 噪音信道 S 基本模型 Pr Pr argmax TSTT T Pr S T 稱為語(yǔ)言S到T的翻譯模型 Pr T 稱為語(yǔ)言T的語(yǔ)言模型 基于統(tǒng)計(jì)的機(jī)器翻譯 基本問(wèn)題 建立合理的可計(jì)算的語(yǔ)言模型并估計(jì)參數(shù) n元模型 n gram 建立合理的可計(jì)算的翻譯模型并估計(jì)參數(shù) 設(shè)計(jì)可靠有效的算法搜索最好的譯文 目前還沒(méi)有能搜索到最優(yōu)結(jié)果的算法 基于統(tǒng)計(jì)的機(jī)器翻譯 IBM翻譯模型 模型訓(xùn)練 EM算法 詞對(duì)齊 n ilji fi j ijiiljitstfTS 1 1 Pr Pr Pr Pr Pr iitf單詞 ti翻譯成 fi個(gè)單詞的概率 Pr lji 在長(zhǎng)度為 l 的源語(yǔ)言句子中 第 i 個(gè)位置的單詞 對(duì)應(yīng)目標(biāo)語(yǔ)言中第 j 個(gè)位置的概率 Pr ijts單詞 ti翻譯成單詞 sj的概率 基于統(tǒng)計(jì)的機(jī)器翻譯 英文 The proposal will not now be implemented 法文 Les 1 propositions 2 ne 4 seront 3 pas 4 mises 7 en 7 application 7 maintenant 5 解碼 Maria no daba una bofetada a la bruja verde Spanish 窮盡式搜索 exhaustive search 剪枝策略 pruning strategy 機(jī)器翻譯為什么困難 語(yǔ)言問(wèn)題非常復(fù)雜 缺乏有效的形式化手段 語(yǔ)言中常有大量歧義現(xiàn)象 翻譯要面對(duì)兩種語(yǔ) 言間的歧義現(xiàn)象 翻譯涉及的常是海量知識(shí) 知識(shí)庫(kù)的建造維護(hù) 代價(jià)很高 機(jī)器翻譯過(guò)程涉及很多環(huán)節(jié) 每個(gè)環(huán)節(jié)都不能 做到100 準(zhǔn)確 錯(cuò)誤積累嚴(yán)重 機(jī)器翻譯研究中常用的對(duì)策 交互式機(jī)器翻譯 子語(yǔ)言 限定領(lǐng)域 受控語(yǔ)言 限定語(yǔ)言的復(fù)雜程度 混合式機(jī)器翻譯 混合式的機(jī)器翻譯 20世紀(jì)90年代 學(xué)界曾就機(jī)器翻譯方法問(wèn)題有過(guò)爭(zhēng)論 堅(jiān)持規(guī)則路線的學(xué)者認(rèn)為 統(tǒng)計(jì)模型對(duì)結(jié)構(gòu)處理乏力且過(guò)于簡(jiǎn)單 正在改變 遠(yuǎn)距離制約問(wèn)題 統(tǒng)計(jì)翻譯是 石頭湯 堅(jiān)持統(tǒng)計(jì)方法的學(xué)者認(rèn)為 傳統(tǒng)方法不能徹底解決機(jī)器翻譯問(wèn)題 基于知識(shí)的方法曾被認(rèn)為是解決機(jī)器翻譯問(wèn)題的關(guān)鍵 方法 可是目前依然沒(méi)有開(kāi)發(fā)出實(shí)用系統(tǒng) 留給大家 的是一些寫在紙上的例子 混合式的機(jī)器翻譯 規(guī)則方法與統(tǒng)計(jì)方法具有互補(bǔ)特點(diǎn) 機(jī)器翻譯的希望 也許在于二者的結(jié)合 多引擎的機(jī)器翻譯 雙語(yǔ)語(yǔ)料庫(kù)和機(jī)器翻譯 大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)是機(jī)器翻譯研究的重要資源 基于雙語(yǔ)語(yǔ)料庫(kù)的翻譯知識(shí)獲取 RBMT 為基于實(shí)例的機(jī)器翻譯提供翻譯實(shí)例庫(kù) 統(tǒng)計(jì)機(jī)器翻譯需要用語(yǔ)料庫(kù)訓(xùn)練語(yǔ)言模型和統(tǒng)計(jì)模 型 雙語(yǔ)句子級(jí)對(duì)齊 在雙語(yǔ)文本間建立句子一級(jí)的對(duì)齊關(guān)系 就是要確定 源語(yǔ)言文本中哪個(gè) 些 句子和目標(biāo)語(yǔ)言文本中哪個(gè) 些 句子互為譯文 句子對(duì)齊的方法 句子對(duì)齊的基本方法 基于長(zhǎng)度的對(duì)齊方法 Brown等人的工作 1991 Gale等人的工作 1993 基于單詞的對(duì)齊方法 Kay等人的工作 1993 兩種方法對(duì)齊準(zhǔn)確率都較高 對(duì)一般文本 都在90 以上 基于長(zhǎng)度的對(duì)齊方法效率優(yōu)于基于單詞的對(duì)齊方法 基于單詞的對(duì)齊方法 利用單詞的對(duì)應(yīng)關(guān)系 來(lái)決定 句子的對(duì)齊關(guān)系 基本依據(jù) 依據(jù) 互為翻譯的兩個(gè)句子在長(zhǎng)度上高度相關(guān) 翻譯時(shí) 句子順序不做劇烈改變 不考慮交叉 什么是詞語(yǔ)對(duì)齊 在互為譯文的兩個(gè)句子間尋找詞語(yǔ)對(duì)譯關(guān)系 形式定義 令 S s1s2 sJ代表原文句子 令 T t1t2 tI代表譯文句子 則 二者間詞匯級(jí)對(duì)齊A可定義為 或者 過(guò)于一般化 2121IJ tttsssA 2 1 2 1 IiJjijA 什么是詞語(yǔ)對(duì)齊 限制條件 不允許一對(duì)多的對(duì)應(yīng)關(guān)系 原文中未譯的詞對(duì)應(yīng)一個(gè)特殊的空詞t0 詞匯對(duì)齊A是從集合 1 2 J 到 0 1 2 I 的映射 令aj A j 則 A a1a2 aJ 詞語(yǔ)對(duì)齊舉例 詞語(yǔ)對(duì)齊 詞語(yǔ)對(duì)齊較句子對(duì)齊困難 翻譯時(shí) 詞序發(fā)生劇烈變化 對(duì)應(yīng)情況復(fù)雜 對(duì)應(yīng)關(guān)系難以確定 虛詞 詞語(yǔ)對(duì)齊的基本方法 統(tǒng)計(jì)模型法 建立統(tǒng)計(jì)對(duì)齊的數(shù)學(xué)模型 啟發(fā)式方法 不一定建立對(duì)齊模型 運(yùn)用假設(shè) 檢驗(yàn)等 技術(shù) 詞語(yǔ)對(duì)齊 從統(tǒng)計(jì)角度看 所有的對(duì)齊都是可能的 只不過(guò)概率 大小不同 原文句子 譯文句子長(zhǎng)度分別是J I 共有多少可能 的對(duì)齊 求解韋特比對(duì)齊 可以通過(guò)下面的過(guò)程計(jì)算韋特比對(duì)齊 1 羅列出原文句子和譯文句子間所有可能的對(duì)齊 2 對(duì)每一種對(duì)齊 計(jì)算P S A T 3 尋找能使P S A T 取得最大值的A作為韋特比對(duì)齊 問(wèn)題一 如何計(jì)算P S A T 問(wèn)題二 羅列所有對(duì)齊效率如何 EM算法 GIZA 機(jī)器翻譯評(píng)價(jià) 科學(xué)客觀的評(píng)價(jià)往往是推動(dòng)技術(shù)發(fā)展的重要因素 機(jī)器翻譯困難 機(jī)器翻譯評(píng)價(jià)也不容易 廣義的機(jī)器翻譯評(píng)價(jià) 1 翻譯系統(tǒng)的譯文質(zhì)量 譯文是否是可以理解的 或可以出版的 2 翻譯系統(tǒng)的效率 每分鐘系統(tǒng)可以完成多少字 的翻譯 3 翻譯系統(tǒng)的健壯性 系統(tǒng)是否可以健壯的處理 任何文本 是否經(jīng)常出現(xiàn)系統(tǒng)崩潰 4 系統(tǒng)界面的友好性 用戶是否可以很容易的使 用系統(tǒng) 機(jī)器翻譯評(píng)價(jià) 狹義而言 機(jī)器翻譯的評(píng)價(jià)一般僅指機(jī)器譯文質(zhì)量的 評(píng)價(jià)或譯文質(zhì)量的自動(dòng)評(píng)價(jià) 評(píng)價(jià)標(biāo)準(zhǔn) 信 達(dá) 雅 不能作為標(biāo)準(zhǔn) 最常用的兩個(gè)標(biāo)準(zhǔn)源于ALPAC報(bào)告 譯文的可理解性 Intelligibility 譯文可在多大程度上為不懂原文的人所理解 譯文的忠實(shí)度 Fidelity 譯文和原文在內(nèi)容上有多大差異 可理解性 忠實(shí)度原則上相互獨(dú)立 但事實(shí)上經(jīng)常 相關(guān) 機(jī)器翻譯評(píng)價(jià) 日本的長(zhǎng)尾真教授在評(píng)測(cè)日本科學(xué)技術(shù)廳機(jī)器翻譯項(xiàng) 目 Mu 的日英系統(tǒng)譯文質(zhì)量時(shí) 為可理解性和忠實(shí)度 進(jìn)行了分級(jí) 可理解性 1 譯文意義明確 用詞 語(yǔ)法 文體都貼切 無(wú)需修改 2 譯文可以理解 用詞 語(yǔ)法 文體方面多少有些問(wèn)題 不 過(guò)這些缺點(diǎn)很容易由人修正 3 譯文的意義大體上可以把握
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 天津積分落戶合同范例
- 舊廠設(shè)備出售合同范例
- 店鋪出兌合同范例文件
- 章丘農(nóng)場(chǎng)租賃合同范例
- 公司賣股合同范例
- 家居合作置換合同范例
- 電梯安裝責(zé)任合同范例
- 簽約編劇合同范例
- 清潔服務(wù)包干合同范例
- 冷庫(kù)直銷安裝合同范例
- 展覽館維修維護(hù)投標(biāo)方案
- 項(xiàng)目電氣工程師總結(jié)
- 陳赫賈玲小品《歡喜密探》臺(tái)詞劇本
- 2023招聘專員個(gè)人年終總結(jié)
- 國(guó)際郵輪產(chǎn)業(yè)及未來(lái)郵輪
- 水工建筑物考試試題及答案
- 多元回歸分析論文
- 小學(xué)第四季度意識(shí)形態(tài)分析研判報(bào)告
- 部編二年級(jí)語(yǔ)文上冊(cè) 培優(yōu)輔差測(cè)試記錄表
- 國(guó)企市場(chǎng)化選聘經(jīng)理層聘任協(xié)議模板
- 《水晶知識(shí)培訓(xùn)》課件
評(píng)論
0/150
提交評(píng)論