已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第2 2 卷第2 期 2 0 0 8 年3 月 中文信息學報 J o U R N A I O FC H I N E S EI N F O R M A T I o NP R O C E S S I N G V 0 1 2 2 N o 2 M a r 2 0 0 8 文章編號 1 0 0 3 一0 0 7 7 2 0 0 8 0 2 0 0 4 7 0 8 基于派生文法的日一蒙動詞短語機器翻譯研究 百順 筑波大學大學院圖書館情報媒體研究科日本筑波市3 0 5 8 5 5 0 摘要 本文探索了源語為日語 目標語為蒙古語的動詞短語機器翻譯系統(tǒng)的實現(xiàn)方式 基于主張日語不活用的 派生文法 重新分析日語附加成分 將耳語的詞干和附加成分轉(zhuǎn)換到蒙古語的詞干和附加成分之后 運用蒙古語 的語音規(guī)則來處理并生成動詞短語 在此基礎上試做了日一蒙動詞短語機器翻譯系統(tǒng) 對3 0 篇日文報道的4 0 3 個動詞短語進行測試 取得了9 5 7 8 的正確率 關鍵詞 人工智能 機器翻譯 派生文法 日語附加成分的分析 語音規(guī)則 短語生成 中圖分類號 T P 3 9 1文獻標識碼 A R e s e a r c ho nJ a p a n e s e M o n g o l i a nM a c h i n eT r a n s l a t i o n o fV e r bP h r a s eB a s e do nt h eD e r i v a t i o n a lG r a m m a r B A IS h u n G r a d u a t eS c h o o lo fL i b r a r y I n f o r m a t i o na n dM e d i aS t u d i e s U n i v e r s i t yo fT s u k u b a T s u k u b a3 0 5 8 5 5 0 J a p a n A b s t r a c t T h i sp a p e rd e s c r i b e st h ei m p l e m e n t a t i o no faJ a p a n e s e M o n g o l i a nv e r b a lp h r a s em a c h i n et r a n s l a t i o ns y s t e m o fv e r bp h r o s e s I nt h eJ a p a n e s ed e r i v a t i o n a lg r a m m a r t h e r ei sn oc o n c e p to fC O n j u g a t i o n s aw o r di sa n a l y z e di n t o s t e m sa n ds u f f i x e s A f t e rt r a n s l a t i n gJ a p a n e s es t e m sa n ds u f f i x e si n t oM o n g o l i a ns t e m sa n ds u f f i x e s M o n g o l i a n p h o n e t i cr u l e sa r eu s e dt op r o c e s sa n dg e n e r a t ev e r b a lp h r a s e s W ei m p l e m e n t e daJ a p a n e s e M o n g o l i a nv e r b a lp h r a s e m a c h i n et r a n s l a t i o ns y s t e m W ea l s ot e s t e d4 0 3 v e r bp h r a s e sf r o m3 0 J a p a n e s er e p o r t s a n da c h i e v e da9 5 7 8 a c c u r a c y K e yw o r d s a r t i f i c i a li n t e l l i g e n c e m a c h i n e t r a n s l a t i o n d e r i v a t i o n a lg r a m m a r J a p a n e s es u f f i x e sa n a l y s i s p h o n e t i c r u l e p h r a s eg e n e r a t i o n 1 引言 日一蒙機器翻譯系統(tǒng)尚未問世 對蒙古語文信 息處理來說 從英語以及日語到蒙古語的機器翻譯 的研究是具有非常重要的理論和實踐意義的課題 于是 作者做了以激活日語和蒙古語的類似性 實現(xiàn) 日一蒙機器翻譯系統(tǒng)為目標的一些嘗試性研究 所 謂的短語是由兩個或兩個以上的詞或短語按照一定 的公式構(gòu)成的 能夠在句子中承擔某種功能的語法單 位 3 在本文中描述的動詞短語是由動詞詞干 包括 動詞性合成詞詞干 上接加附加成分串而構(gòu)成的 蒙古語屬于黏著型語言 語法體系和日語有很 多相似之處 特別是兩種語言的句法 是幾乎相同 的 因此 對于從日語到蒙古語的翻譯來說 把日語 語句的分析結(jié)果直接翻譯為蒙古語 也可以譯出一 定程度的譯文 當然 對日語和蒙古語而言 兩種語 言之間的語音變化 構(gòu)詞構(gòu)形和語法等方面也存在 很多不同點 也有必要對詞于和附加成分的翻譯進 行適當?shù)膿裨~等處理 在日語方面運用了派生文法 1 理由是 1 日語傳統(tǒng)語法的活用形處理是機器翻譯中的難 點之一 2 派生文法是基于黏著語性質(zhì)的語法 它是把日語的構(gòu)詞構(gòu)形作為詞干上接加附加成分描 收稿日期 2 0 0 7 0 4 1 8 定稿日期 2 0 0 7 0 9 0 7 作者簡介 百順 1 9 6 4 一 男 博士生 主要研究方向為機器翻譯 自然語言處理 萬方數(shù)據(jù) 4 8 中文信息學報 述的 因此 不需要活用形處理 3 日語派生文法 比傳統(tǒng)語法更為接近蒙古語語法 因此 本文利用 派生文法對日語詞法分析結(jié)果中的附加成分重新加 以分析 把E l 語的詞干和附加成分轉(zhuǎn)換成蒙古語的 詞干和附加成分 運用蒙古語語音規(guī)則生成蒙古語 動詞短語 并提出了日一蒙動詞短語機器翻譯系統(tǒng) 的實現(xiàn)手法 2 基于派生文法的日語動詞短語的解析 基于I J 語作為黏著語的性質(zhì) 派生文法的觀點 認為日語沒有活用性m 引 所謂黏著語 就是其語 法機能由附加成分表現(xiàn)出來的語言的總稱 1 它的 構(gòu)詞構(gòu)形是詞干上接加不同附加成分來完成的 派 生文法對日語動詞短語的描述概括起來有下列 特征 2 1 動詞短語的形成 派生文法把日語的獨立詞大體上分為動作動詞 詞干 形狀動詞詞干 實名詞詞干 形狀名詞詞干等 四種 這些分類與E l 語傳統(tǒng)語法中的動詞 形容詞 名詞 形容動詞相對應 派生文法的動詞短語是由動作動詞詞干 一次 詞干 上接加附加成分串構(gòu)成的 附加成分 大體上 可分為兩種 機能附加成分和派生附加成分 2 2 派生附加成分和機能附加成分 對于派生文法來說 把 害力七 L J 解析為k a k a s e r t l 即詞干k a k 上接加附加成分一a s e 而派生二 次詞干 害力七J k a k a s e 這是動作動詞詞干上接 加附加成分而派生的新的詞干 這種附加成分叫做 派生附加成分L 1 對派生附加成分而言 像一r u 這樣不派生新詞干 的附加成分叫做機能附加成分 1 動作動詞詞干上 接加多個附加成分時 機能附加成分排在最后 2 3 元音詞干和輔音詞干 動詞的不變化部分 即去掉附加成分之后剩下 的部分叫做動詞詞干 以傳統(tǒng)語法的一段動詞r 起 專 L J 食弋 L J 為例 不變化部分 起專j 食代J 是動 詞詞干 這些詞干都以i 或e 來結(jié)尾 像這種以元 音結(jié)尾的動詞詞干叫做元音詞干 以五段活用動詞 藉滅J 為例 在傳統(tǒng)語法中詞尾變化是 鼯寸Jr 話 三 J 螽叉j 螽七J 螽yJ 從語音學的角度能把這 些活用形考慮為r h a n a s a jr h a n a s i jr h a n a s u jr h a n a s e j r h a n a s O J 其中h a n a s 是不變化部分 像這 種以輔音結(jié)尾的動詞詞干叫做輔音詞干 2 4 連接輔音和連接元音 動作動詞詞干上接加附加成分時 必須遵從以 下2 條規(guī)則 規(guī)則1 輔音結(jié)尾的詞干上接加以輔音為首的 附加成分時 附加成分首的輔音要脫落 規(guī)則2 元音結(jié)尾的詞干上接加以元音為首的 附加成分時 附加成分首的元音要脫落 規(guī)則1 這種會脫落的輔音叫做連接輔音 1 例 如 輔音詞干h a n a s 上綴接附加成分r u 時 附加成 分首的輔音r 就會脫落 變成h a n a s u 規(guī)則2 這種會脫落的元音叫做連接元音E 1 例 如 元音詞干t a b e 上綴接附加成分i t a 時 附加成 分首的元音i 就會脫落 變成t a b e t a 派生文法中為了表示以上所看到的這些語法現(xiàn) 象 必須由音素單位的羅馬字來表述 2 5 詞千的詞類變化 派生文法所述的是在詞干上接加附加成分時會 產(chǎn)生詞類變化 因此 把詞干后接的附加成分看作 是有限狀態(tài)自動機的輸入 其詞類變化為狀態(tài)變遷 如圖1 所示的是在派生文法中詞干上接加附加成分 圖1 派生文法的有限狀態(tài)自動機模型 萬方數(shù)據(jù) 2 期百順 基于派生文法的日一蒙動詞短語機器翻譯研究 4 9 時所發(fā)生的語法機能變化模型 詞干的語法機能 的變化就是自動機的狀態(tài)變遷 這是由于派生附加 成分的特性使詞干的詞類變化所產(chǎn)生的結(jié)果 譬 如 圖1 中顯示的是一次詞干的動作動詞詞干上接 加附加成分而出現(xiàn)的狀態(tài)變遷 也就是說從一種詞 干變遷到另一種新的詞干的例子 3 用派生文法的動詞短語的翻譯 日語和蒙古語都具有黏著語的性質(zhì) 所以兩種 語言的動詞短語的形成具有共同的特點 都是詞干 上接加附加成分所形成的 例如 和日語詞干r 食 人J 相對應的蒙古語詞干是r i d e j 表達使役態(tài)時 把使役態(tài)附加成分r 一 s a s e d 接加在詞干上 就派生 為 食一 s a s e j 同樣 在蒙古語的詞干上接加相對 應的使動態(tài)附加成分 g u l j 就派生為r i d e g u l j 同 時也存在一些不同點 例如 由于兩種語言在敬語 方面的表達方式有所不同 表達尊敬的日語附加成 分r 一 r a r e J 和r 一 i m a s J 相對應的蒙古語的附加成 分就不存在 還有 日語使役態(tài)附加成分r 一 s a s e J 相對應的蒙古語的使動態(tài)附加成分有r G o l g u lJ r 1 G a l g c jr G a g e j 等三組 現(xiàn)階段 本系統(tǒng)只限于 第一組rG o l g u lJ 為了便于處理 以后把rG o l g u l j 等表達同樣的語法意義并且相對立的這種附加 成分記為 G g o u l J 下面把日語動詞短語翻譯 為蒙古語的過程表示為圖2 日語動詞短語 附加成分的羅馬字轉(zhuǎn)換 派生文法的解析結(jié)果 日一蒙轉(zhuǎn)換 蒙古浯語音規(guī)則處理 蒙古語動詞短語 食 芒世亡 0 食 s a s e t a 食 s a s e 一一 i R a i d e G g J o u lb a e i d e g u l b e 8 i d e g u l b e 圖2 基于派生文法的動詞短語翻譯例 4 翻譯過程中存在的難點 日語和蒙古語雖然在句法和構(gòu)詞方面有很多相 似之處 但也有不同點 例如 否定性動詞短語中的 附加成分的結(jié)構(gòu)不同 還有 日語和蒙古語不能一 一對應的現(xiàn)象 在這種情況下生成的動詞短語就成 為不正確的或不自然的譯文 在本章里 將對這些 問題舉例說明 4 1 同形附加成分的區(qū)分 日語在派生文法中存在同形附加成分 但其對 應的蒙古語的附加成分就不同 例如 表達愿望的 附加成分和表達過去式的附加成分都是r 一 i t a j 而且 對同一個表達過去式的附加成分來說 它的連 體形和終止形也是f i t a 3 但其蒙古語的譯文是 不相同的 如圖3 所示 語法機能愿望過去式連體形過去式終I E 形 日語言k i t a i 眷i t 魚a m o n o II 蒙古語 b i q i y e b i q i g s e ny a G o m a 香照 I b i q i b e 圖3同形附加成分相對應的蒙古語附加成分例 以上三種附加成分的形狀都是r 一 i t a j 但其在 蒙古語中 表達愿望的附加成分相對應的附加成分 為r y e j 表達過去式附加成分的連體形為 g s e n A 表達過去式附加成分的終止形為r b ej 因此 要翻 譯日語附加成分r 一 i t a d 時 必須根據(jù)其機能和動詞 形 從r y e a r g s e n j 和r b e j 中進行適當?shù)倪x擇 4 2 杪變名詞和杪變動詞的翻譯問題 在日語里 像 勉強亨弓J 感謝寸弓J 似的 存在 一些名詞上后接r 亨弓J 的詞 這類名詞叫做寸變 名詞 名詞后接r 寸否J 把名詞動詞化的詞 在語 法上叫做妒變動詞 寸變名詞通常指的是表示動作 的名詞 和寸變動詞一起 作為合成詞來使用 日 語里 廿變名詞和廿變動詞的數(shù)量很多 在蒙古語中 和r 亨為J 相當?shù)膯卧~是r h i h u j 譬如 日語的r 勉強J 相對應的動詞是r s o r o l q a j 作 為合成詞來使用的 勉簸寸弓J 要譯成蒙文時 如果 把 勉強j 和r 寸否J 直接翻譯的話 就成為兩個動 詞r s o r o l q a jr h i h u j 這樣的譯文是不正確或不自然 的 其實蒙文里有r s o r o l q a h o j 這樣的譯文 于是 要正確翻譯 勉強J r 中否J 必須使它變?yōu)?勉強中 r U A 這樣一個詞干上接加附加成分的形態(tài) 4 3 語序的不一致 日語和蒙古語語序雖然有很多相似之處 但也 有不同點 例如 表達否定性動詞短語的過去式時 兩種語言的附加成分的順序就會有不同之處 表達 現(xiàn)在和未來式的時候 蒙古語有必要追加附加成分 這是作者根據(jù)派生文法研究出來的有限狀態(tài)自動機模型 萬方數(shù)據(jù) 5 0 中文信息學報 下面以 食八n a k a t t a J 和 食 一c n a i j 兩個動詞短語為 例 看看兩種語言之間的不同點 例1 食 n a k a t t a 日語 動詞詞干否定式附加成分 蒙古語 動詞詞干過去式附加成分 日語 過去式附加成分 蒙古語 否定式附加成分 例2 食弋n a i 日語 動詞詞干 蒙古語 動詞詞干非過去式附加成分 日語 否定式附加成分附加成分 蒙古語 否定式附加成分附加成分 例1 表示 日語附加成分的順序是 否定式附 加成分在前而過去式附加成分在后 蒙古語附加成 分的順序是 過去式附加成分在前而否定性附加成 分在后 例2 表示 日語否定性附加成分直接和詞 干連接 而蒙古語的詞干和否定性附加成分之間必 須要追加非過去式附加成分 有一些日語附加成分 沒有相對應的譯文 譬如本例中的r i J 就是其中的 一個 5 對難點問題的解決 本文不僅要利用語言之間的類似性 而且要進 行句法分析 下面要論述對第四章里提出的疑難問 題的解決方法 5 1 同形附加成分的區(qū)分 同形附加成分的區(qū)分是要根據(jù)句法單位內(nèi)的附 加成分的黏著前狀態(tài)和黏著后狀態(tài)來決定的 所謂 的附加成分的黏著前狀態(tài)就是黏著什么樣的詞干 所謂附加成分的黏著后狀態(tài)就是黏著之后派生什么 樣的二次詞干或者形成動詞形的連用形 連體形 終 止形和命令形的哪一種 譬如對附加成分 i t a j 來說 在表示愿望和表示過去式的場合 雖然黏著前 狀態(tài)都是動詞詞干 但是黏著后狀態(tài)就不同 前者 的黏著后狀態(tài)是形狀動詞詞干 后者是動作動詞連 體形和終止形 這種不同狀態(tài)能使同形附加成分有 區(qū)分開來的可能性 因此 本系統(tǒng)解決了對同形附 加成分的區(qū)分問題 也實現(xiàn)了圖3 中的表示愿望的 i t a j 譯為F y e j 表示過去式附加成分 i t a j 的連 體形譯為F g s e n j 終止形譯為r b e j 5 2 對妙變名詞和杪變動詞的翻譯問題的處理 關于第四章里提出的寸變名詞和寸變動詞翻譯 問題的對策是把同一個句法單位的寸變名詞和廿變 動詞用以下規(guī)則來合成一個動作動詞 規(guī)則 寸變名詞十廿變動詞一動作動詞 例如 把r 勉強J 和 中弓J 合并為 勉強亨否J 因此 把詞干部分 勉強中j 和附加成分r r U J 分別 譯為r s o r o l q a j 和r h o j 這樣就生成了 s o r o l q a h o j 的很自然的蒙古語譯文 5 3 語序不一致的調(diào)整 本文從派生文法的角度把日語句法單位看作是 詞干上接加附加成分串的形式 關于第四章第3 節(jié) 里舉的否定性動詞短語的問題 對附加成分的順序 制作了調(diào)整規(guī)則 運用這些規(guī)則對附加成分的順序 進行處理 以下表示的是具體的規(guī)則 規(guī)則1 動作動詞詞干 否定式附加成分 過去式附加成分一 動作動詞詞干 過去式附加成分 否定式附加成分 規(guī)則2 動作動詞詞干 否定式附加成分一 動作動詞詞干 非過去式附加成分 否定式附加成分 運用以上規(guī)則解決了在第四章第3 節(jié)中舉的例 1 例2 的附加成分的調(diào)整問題 把日語的詞干和附 加成分轉(zhuǎn)換成蒙古語的詞干和附加成分 用語音規(guī) 則生成動詞短語 結(jié)果是 把r 食弋n a k a t t a j 譯為 r i d e g s e nu g e i j 把 食八n a i j 譯為r i d e h uu g e i j 的很 自然的譯文 6 機器翻譯系統(tǒng)的實現(xiàn) 6 1 系統(tǒng)的構(gòu)造 本系統(tǒng)由四個部分組成 圖4 也就是詞法句 法分析 基于派生文法的附加成分分析 日語一蒙古 語轉(zhuǎn)換和蒙古語短語生成等 詞法分析利用了日語詞法分析系統(tǒng)J U M A N 句法分析利用了日語句法分析系統(tǒng)K N P 對于K N P 分析出來的短語進行基于派生文法 的附加成分分析和蒙古語語音規(guī)則處理 6 2 基于派生文法的附加成分分析 本模塊是由5 個部分模塊組成 圖5 6 2 1 詞干整理 派生文法基于日語作為黏著語的性質(zhì) 認為詞 萬方數(shù)據(jù) 2 期百順 基于派生文法的日一蒙動詞短語機器翻譯研究 5 1 日文 t 詞法 句法分析 l 基于派生語法的附加成分分析 t 日語一蒙古語轉(zhuǎn)換 I 蒙古語短語生成 t 蒙古文 圖4 日一蒙機器翻譯系統(tǒng)流程圖 詞法和句法 分析結(jié)果 i 詞干整理 二二 二 根據(jù)活用形抽出 附加成分 二二 二二 假名羅馬字轉(zhuǎn)換 二二工二 附加成分分析 二二工二 語序調(diào)整 二二工二 日語詞干和 附加成分串 活用形附 加成分對 應表 假名羅馬 字轉(zhuǎn)換表 附加成分 定義表 圖5 附加成分分析模塊 干上接加附加成分而構(gòu)詞或構(gòu)形 詞干整理基于這 個觀點 把K N P 分析結(jié)果的短語當作一個詞干和 附加成分的連接形式 但是 日語句法分析系統(tǒng) K N P 分析出來的短語里有可能存在多個獨立詞的 情況 針對這個問題 有必要把這些多個獨立詞 并為一個合成詞來處理 例如 在r 一括魍理中 否j 的短語里包含r 一括J r 翅理J 中為J 等三個 獨立詞 把這三個獨立詞并為一個r 一括熟理寸 為J 的合成詞 合成詞的詞類由最后的獨立詞的 詞類來決定 6 2 2 根據(jù)活用形抽出附加成分 派生文法認為 日語不存在活用 也就是說 動 詞 含形容詞 形容動詞 是在詞干上接加附加成分 而構(gòu)成的 因此存在著構(gòu)成各種活用形的機能附加 成分 例如 表1 所表示的是構(gòu)成輔音動詞 舂 J 的活用形的附加成分 根據(jù)活用形抽出附加成分的目的是要抽出表1 所表示的那種構(gòu)成動詞 含形容詞 形容動詞 的活 用形的附加成分 方法是 利用J U M A N 分析出來 表1活用形形成附加成分的例子 活用形 傳統(tǒng)文法 派生文法 附加成分 未然形睿加 k a k aa 基本連用形考謄 k a k iI 基本形害 k a k UU 基本條件形害C 于C 善k a k e b ae b a 意志形害二 jk a k O U0 U 命令形害C 于 k a k ee 表2 活用形附加成分對應表的一部分 活用形一活用形 附加成分 輔音動詞力行一未然形 a 輔音動詞力行一基本形 U 輔音動詞力行一意志形 o U 輔音動詞力行一命令形 e 輔音動詞力行一基本條件形e b a 輔音動詞力行一基本連用形 l 的有活用形的獨立詞 動詞 形容詞 形容動詞 的活 用形和活用形的信息 作了附加成分表 根據(jù)這個 表 進行構(gòu)成活用形的附加成分的抽出 表2 所表 示的是由于活用型和活用形而得出的附加成分表的 一部分 6 2 3 附屬詞的羅馬字轉(zhuǎn)換 派生文法是以語音學 形態(tài)學為中心的文法 把附加成分作為語音單位來考慮 因此必須用羅馬 字來表示 附加成分的羅馬字轉(zhuǎn)換正是從這個觀點 出發(fā)的 因此 作者制作了日語的假名和羅馬字對 應表 根據(jù)這個表 對J U M A N 的詞法分析出來的 附加成分進行羅馬字轉(zhuǎn)換處理 表3 表示的是假名 和羅馬字對應表的一部分 表3 假名和羅馬宇對應表的一部分 假名 世 島扎允 羅馬字 S e r ar et a 6 2 4 附加成分的分析 根據(jù)附加成分定義表 對詞干上接加的附加成 分串進行重新分析 派生文法是正規(guī)文法 因此可 以作為有限狀態(tài)自動機來處理 圖1 根據(jù)附加成 分定義表 把自動機的狀態(tài)作為詞干種類 輸入為附 加成分 因此 這個表具有使附加成分模型化的意 義 定義表記錄了派生文法中包含的全部附加成 萬方數(shù)據(jù) 5 2 中文信息學報 分 具體的分析方法是這個自動機接受正規(guī)表達式 對附加成分的匹配 附加成分定義表的一部分為表 4 所示 6 2 5 附加成分的順序調(diào)整 附加成分順序的調(diào)整在第5 章第3 節(jié)中說明 過 此處不再贅述 表4 附加成分定義表的一部分 黏著前狀態(tài)語法機能黏著后狀態(tài)附加成分 動作動詞詞干非完成態(tài)肯定動作動詞連體形 r U 動作動詞詞干完成態(tài)肯定動作動詞連體形 i t a 動作動詞詞干前望態(tài)肯定動作動詞連體形 y o n 動作動詞詞干使役動作動詞詞干 s a s e 動作動詞詞干被動動作動詞詞干 r 8 1 e 形狀動詞詞干非完成態(tài)形狀動詞終止形 l 形狀動詞詞干完成態(tài) 形狀動詞終止形 k a t t a 6 3 日一蒙轉(zhuǎn)換模塊 7 實驗評價 利用日一蒙詞干詞典和日一蒙附加成分對照 表 把日語的詞干和附加成分分別譯為蒙古語的詞 干和附加成分 日蒙附加成分對照表包括 派生文法的全部 附加成分和根據(jù)翻譯系統(tǒng)的需要而補充的一些附 加成分 在蒙古語附加成分里有很多同音異形附 加成分 因此 蒙古語附加成分的譯文里不只是一 對一 還有一對多的情況 例如 日語屬格助詞 刃j 相對應的蒙古語附加成分是y i n o n u n o u 等五種 6 4 蒙古語生成模塊 運用語音規(guī)則把蒙古語詞干和附加成分連接起 來 生成蒙古語短語 蒙古語語音規(guī)則是根據(jù)蒙古語 語法E z 又從符合自然語言處理的角度制作的 蒙古 語語音規(guī)則主要包括元音和諧規(guī)則 元音和輔音相連 規(guī)則 輔音和諧規(guī)則 連接元音書寫規(guī)則等 圖6 表 示的是應用語音規(guī)則生成蒙古語短語的例子 習語短語食 s a s e t a 附加成分分析食 一 s a s e i t a 日一蒙轉(zhuǎn)換 i d eE G g F o u lF G g s a e 元音和諧規(guī)則 i d eF G g u l G g s e n 輔音和諧規(guī)則 元音輔音結(jié)合規(guī)則 i d e g u lg s e n 連接元音書寫規(guī)則 i d e g u l Ug s e n 蒙古語短語生成i d e g u l u g s e n 圖6應用語音規(guī)則生成蒙古語短語的例子 在本章里 運用作者試作的翻譯系統(tǒng)進行了動 詞短語的實驗 并做出評價 7 1 對象數(shù)據(jù) 為了試驗本系統(tǒng)的翻譯精度 在日本每日報 9 的有關農(nóng) 林 牧 水的3 1 0 個新聞報道中 用機械選 擇了3 0 個新聞報道作為測試數(shù)據(jù)庫 其余的2 8 0 個新聞報道作為訓練數(shù)據(jù)庫 而且以測試數(shù)據(jù)庫作 為對象 用本系統(tǒng)進行了翻譯 對其生成的4 0 3 個不 同動詞短語進行了評價 7 2 評價方法 評價是由作者以外的一位蒙古族人來實施的 在這里 所謂的正確譯文就是作為蒙古語完全正確 的表述 所謂的錯誤譯文就是語法或意義上不正確 的表述 這次評價因為不是整個句子的評價 而是 以短語為單位 并且重點放在附加成分的分析和蒙 古語語音規(guī)則的準確率上 所以對詞典里沒有記錄 的單詞 進行了一些適當?shù)难a充 7 3 結(jié)果和考察 針對測試數(shù)據(jù)庫3 0 篇新聞報道進行翻譯的 結(jié)果生成了4 8 1 個蒙古語動詞短語 其中有一 些重復的 不同動詞短語的數(shù)量為4 0 3 個 正確 翻譯的動詞短語有3 8 6 個 獲得了9 5 7 8 的正 確率 表5 萬方數(shù)據(jù) 2 期 百順 基于派生文法的日一蒙動詞短語機器翻譯研究5 3 表5 正確翻譯率 不同動詞短語數(shù)正確翻譯數(shù)正確翻譯率 4 0 33 8 69 5 7 8 下面把錯誤譯文的詳細原因表示為表6 表6 錯誤翻譯的原因細目 錯誤翻譯的原因個數(shù)錯誤翻譯率 同形附加成分的區(qū)分O 廿變名詞和廿變動詞處 0 語序的不一致 O 附加成分分析失敗 10 2 5 語音規(guī)則處理 1 33 2 3 多義詞30 7 4 合計 1 7 4 2 2 表6 當中的同形附加成分的區(qū)分 廿變名詞和 廿變動詞的處理以及語序的不一致是在第四章里談 到的問題 這次試驗當中同形附加成分的區(qū)分問題 出現(xiàn)的次數(shù)為1 0 3 次 其中表示愿望的場合是1 次 表示過去式連體形的場合是2 1 次 表示過去式終止 形的場合是8 1 次 由于本系統(tǒng)的特殊處理而全部 翻譯為正確譯文 關于廿變名詞和寸變動詞的處理 8 5 次 和語 序的不一致 1 6 次 問題 由于本系統(tǒng)中采取適當?shù)?對應措施而翻譯的譯文也是全部正確的 關于附加成分的分析是基于派生文法的最關鍵 的環(huán)節(jié) 在文獻E 5 3 里附加成分分析的失敗占錯誤 翻譯率的8 5 通過附加成分定義規(guī)則的強化 這 次試驗中失敗的個數(shù)是1 個 不過 這也是在含有 文言文的動詞短語的場合出現(xiàn)的失敗 這次試驗中需要語音規(guī)則處理的地方有5 6 9 個 詞干和附加成分 附加成分和附加成分之間的 連接處都需要語音規(guī)則的處理 所以 語音規(guī)則處 理的個數(shù)比動詞短語要多得多 語音規(guī)則處理的總 數(shù)5 6 9 次中 由語音規(guī)則而引起的失敗個數(shù)是2 個 由補助動詞的處理而導致的失敗個數(shù)是1 1 個 蒙古語語音規(guī)則里有一些特殊現(xiàn)象 要對這些 特殊現(xiàn)象進行處理 現(xiàn)在的語音規(guī)則還不夠充分 還 需要探討和強化 還有 在本文中是把補助動詞作 為附加成分來處理的 這次試驗中補助動詞語音處 理的失敗次數(shù)最多 譬如 本系統(tǒng)把 生彥L L 弓J 翻譯為 u i l e d b u r i l e j ub a i n eJ 這是錯誤譯文 正確譯文應該是r u i l e d b u r i l e j ub a i n ai 這是因為 現(xiàn)系統(tǒng)中日語動詞短語和蒙古語動詞短語都是由詞 干上接加附加成分串構(gòu)成的 特別是蒙古語的語音 處理是由詞干 一次詞于 的性質(zhì)決定附加成分的性 質(zhì) 并且選擇符合一次詞干性質(zhì)的附加成分 例子 中的一次詞干r u i l e j 是陰性詞干 按元音和諧規(guī) 則 一次詞干 陰性 上接加的附加成分都是陰性的 但是 蒙古語的補助動詞r b a i n a 3 是個獨立詞 也 是詞干上后接附加成分構(gòu)成的 因此 按理說是補 助動詞的詞干r b a i j 決定其后接加的附加成分的性 質(zhì) 但是 現(xiàn)在的系統(tǒng)是補助動詞詞干上接加的附 加成分也受一次詞干r u i l e j 的制約 所以導致語音 規(guī)則處理的失敗 對補助動詞的語音規(guī)則處理問題 作為今后的研究課題保留 多義詞處理是整個機器翻譯的難點之一 對于 日一蒙機器翻譯來說 多義詞包括詞干的多義和附 加成分的多義兩種 對附加成分的多義而言 日語 動詞構(gòu)詞構(gòu)形附加成分的多義詞不多 其中 在本 文里對某些多義附加成分進行了處理 比如說 在 第五章第1 節(jié)里解決的同形附加成分 i t a A 的區(qū) 分就是在某種意義上的多義詞處理 是根據(jù)詞干和 附加成分的連接前狀態(tài)和連接后狀態(tài)處理的 在本 文中 對詞干的多義詞還沒有進行處理 譬如 本系 統(tǒng)把 南弓E 謄J 翻譯為 b a i n aq a G 3 這是錯誤譯 文 正確譯文應該是r j a r i mu y e 3 這次試驗當中 出現(xiàn)了向這種不符合原文意思的譯文只3 個 這是 因為 其一 日語和蒙古語有很多相似之處 其二 本系統(tǒng)訓練數(shù)據(jù)庫和測試數(shù)據(jù)庫都是關于農(nóng) 林 牧 水的新聞報道 為了提高本系統(tǒng)的正確翻譯率 對多義詞的處理作為下一個階段的研究目標 8結(jié)論 本文以日語到蒙古語的機器翻譯系統(tǒng)的開發(fā)為 目標 提出并實現(xiàn)了基于日語派生文法的動詞短語 的翻譯方式 根據(jù)試驗結(jié)果 證明了動詞短語的高 精度的翻譯是可能的 今后 為了提高動詞短語的正確翻譯率 強化對 補助動詞的處理 研究的重點放在多義詞的處理并 實現(xiàn)具有實用性的日一蒙機器翻譯系統(tǒng) 致謝日本東京大學石川徼也特任教授和筑波 大學長谷部紀元教授對本研究給予了極大的支持和 精心的指導 在此表示衷心的感謝 萬方數(shù)據(jù) 5 4 中文信息學報 2 0 0 8 艇 參考文獻 1 3 2 3 清瀨羲三鄄剮府 霹本籍文法新榆一派生文法序稅 M 東京 桉楓社 1 9 8 9 演輳爾泰 蒙古諉語法 M 呼和浩特 內(nèi)蒙蠢人民出 版柱 1 9 9 1 巴達瑪敖德斯爾 面向機器翻譯的漢蒙短語轉(zhuǎn)換規(guī)則 研究 M 呼和浩特 內(nèi)蒙古教育出版社 2 0 0 5 那矮鳥瑟羯 蓑群 邑迭瑪敖德簸零 關予漢蒙瓿爨蘩 助翻譯系統(tǒng) J A 乙T A IH A K P O 2 0 0 1 1 1 3 5 4 1 百腰 畏谷都紀元 石j 徽魄 派生文法基哆 日本疆 加島乇y p 黼 力文箭翻袈 A 裔褡妞理學會第 1 2 湖年次大會凳表瀚文集 C 東京 2 0 0 6 5 8 4 5 8 7 小j 泰弘 五7 夕 l 7 7 X 衫澎麓津汪 獠壤 康游 派生文法 上為日本黼形憋索解析 A 情鞭魍 理學會輸文蒜 C 1 9 9 9 4 0 3 1 0 8 1 1 0 9 0 伊 迭瓦 張暴浩等 蒙轟添語富一文字鶼塞費純娥理 J 中文信息攀撮 2 0 0 6 2 0 4 5 6 6 2 聶建云 陳江 利用平行網(wǎng)藤建立中英文統(tǒng)計翻譯模型 中文信息學報 2 0 0 1 1 5 1 1 1 2 C D 一每蠢薪鬻 京京 每囂凝鬻柱 2 0 0 2 辱 毒掣魯辱 導 辱分 學 簪告一毋 彘扣暈魯 靜 暈 骨 帶爭 審 串 母 骺 供 簪 囂 辟鼢始 苷 簪 辱耆n 始 世 乍 簪扣供 簪 暈 母 毋爭學 爭 辱毒 母分掣 售 簪蠹嘣誓 上接第2 7 頁 裘2 結(jié)果努耩對阮表 待消解對模激識別出待 正確識別出 準確率 召回率F 值 豹總數(shù)目消辯對總數(shù)目的待消解對數(shù)強 人稱代謠消解 1 2 4 8 75 4 6 2 0 7 4 9 0 7 5 垂 8 l 艇為別名或簡稱的消解 4 22 91 55 1 7 2 3 7 8 4 3 6 8 撩忝我鑲瀵勰 2 5 61 4 24 22 9 S 8 1 8 8 2 3 1 2 本實驗的共指消解 3 7 9 2 6 5 2 0 87 8 4 9 5 4 7 4 6 4 5 參考文獻 王3 2 3 4 5 芏簿晦 摻我潰薅黲蕊零方法秘蜜瑗技零西 孛文信 息學報 2 0 0 2 1 6 6 9 1 7 王厚峰 何婷婷 漢語巾人稱代詞的消解研究 J 計算 稅學援 2 0 0 1 2 4 2 1 3 6 1 4 3 李國匝 羅云飛 采用儻先選擇策略盼中文人稱代譎的 指代消解 J 中文信息學報 2 0 0 5 1 9 4 2 4 3 0 誨敏 王熊忠 馬彥華 漢語中指代問題的研究及討論 口 秀南黼范大學學掇 1 9 9 9 2 4 6 6 3 3 6 3 7 錢偉 郭以昆 周雅倩 吳立德 基于最大熵模濺的英文 名詞短語指代消解 J 計算機研究與發(fā)展 2 0 0 3 4 0 6 7 8 9 9 i 3 3 7 1 3 4 3 W e eM e n gS o o n H w e eT o uN gt D a n i e lC h u n gY o n g L i m AM a c h i n eL e a r n i n gA p p r o a c ht oC o r e f e r e n c e R e s o l u t i o no fN o u nP h r a s e s J C o m p u t a t i o n a lL i n g u i s t i c s 2 0 0 1 2 7 4 5 2 1 5 4 4 劉群 統(tǒng)計機器翻譯綜述E J 中文信息學報 2 0 0 3 1 7 4 1 1 2 MV i l a i n JA b e r d e e ne ta l Am o d e l t h e o r e t i cc o r e f e r e n c es c o r i n gs c h e m e A P r o c O ft h e6 t hM e s s a g e U n d e r s t a n d i n gC o n f M u c 6 c 1 9 9 5 4 5 5 2 A B e r g e r v D e l l aP i e t r a 實例模式子 系統(tǒng)在1 559個句子的封閉測試中達到99 的準確率 在1 500個句子的開放測試中達到85 的準確率 配價模式子系統(tǒng)在 3 059個句子的測試中達到了 89 的準確率 4 期刊論文 孫連恒 楊瑩 姚天順 OpenE 一種基于n gram共現(xiàn)的自動機器翻譯評測方法 中文信息學報2004 18 2 在機器翻譯研究領域中 評測工作發(fā)揮著重要的作用 它不僅僅是簡單地對各個系統(tǒng)輸出結(jié)果進行比較 它還對關鍵技術的發(fā)展起到了促進作用 譯文 質(zhì)量的評測工作長期以來一直以人工的方式進行 隨著機器翻譯研究發(fā)展的需要 自動的譯文評測研究已經(jīng)成為機器翻譯研究中的一個重要課題 本文討論 了基于n gram共現(xiàn)的自動機器翻譯評測框架 介紹了BLEU NIST OpenE三種自動評價方法 并通過實驗詳細分析了三種方法的優(yōu)缺點 其中的OpenE采用了 本文提出了一種新的片斷信息量計算方法 它有效地利用了一個局部語料庫 參考譯文庫 和全局語料庫 目標語句子庫 實驗結(jié)果表明這種方法對于機器 翻譯評價來說是比較有效的 5 學位論文 李劍 英漢機器翻譯中的句型轉(zhuǎn)換和譯文生成 2005 隨著對外交流的日益廣泛 機器翻譯的研究與實現(xiàn)有著重要的現(xiàn)實意義 同時 機器翻譯的研究對于自然語言理解 人工智能 計算語言學等學科 的研究也起著重要的推動作用 并對促進情報獲取工作發(fā)展具有重要的意義 機器翻譯 MT 就是應用計算機實現(xiàn)從一種自然語言文本到另一種自 然語言文本的翻譯 20世紀90年代以來 機器翻譯的方法基本上可分為兩大類 理性主義的基于規(guī)則的方法和經(jīng)驗主義的基于語料庫的方法 本 文以軍隊某部重點科研項目 英漢智能型機器翻譯系統(tǒng)為基礎 設計實現(xiàn)了機器翻譯中的句型轉(zhuǎn)換和譯文生成等功能 本文首先論述了課題背景與意 義 介紹了機器翻譯的發(fā)展與研究現(xiàn)狀及系統(tǒng)概況 然后對英漢兩種語言進行對比研究 論述了英漢語言的特點及差別 并給出相應的消歧策略 接著 重點介紹了句型轉(zhuǎn)換和譯文生成模塊的設計 實現(xiàn)過程 最后給出系統(tǒng)實驗結(jié)果 針對英語中的疑問句等特殊句型 系統(tǒng)采用了利用句型轉(zhuǎn)換對 其進行處理的新策略 在格語法的基礎上 本文提出了擴展的基于信息的格語法 EICG 并設計實現(xiàn)了基于EICG的句型轉(zhuǎn)換器 將各種特殊句型轉(zhuǎn)換為 陳述句語序 翻譯是一個高度智能化的過程 單純的運用某種方法都不能取得比較理想的翻譯效果 因此 本文將經(jīng)驗主義的方法和傳統(tǒng)的基于 規(guī)則的方法相結(jié)合 在傳統(tǒng)的規(guī)則體系下 引入翻譯模式的支持 兩種方法相互補充 設計實現(xiàn)了用于完成源語言的轉(zhuǎn)換和生成工作的譯文生成模塊 在基于模式的方法中 基于范例推理的思想 研究了語法信息和語義信息相結(jié)合的相似度計算方法 對原有匹配算法進行改進 設計了基于動態(tài)規(guī) 劃的句子相似度匹配算法及匹配原則 并給出語義相似度計算公式 通過語義相似度計算來保證對模式進行精確匹配 在基于規(guī)則的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 珠寶服務采購合同范例
- 手工承包合同范例
- 破碎瓶蓋出售合同范例
- 管網(wǎng)工程居間合同范例
- 外墻保溫轉(zhuǎn)讓合同范例
- 花卉盆栽配送合同范例
- 與政府租地合同范例
- x小產(chǎn)權(quán)購房合同范例
- 網(wǎng)吧投資合同范例
- 保險公司車輛合同范例
- 論群團組織在助推企業(yè)發(fā)展的作用發(fā)揮
- 鄉(xiāng)土中國知識點匯總 統(tǒng)編版高中語文必修上冊
- 《電力設備預防性試驗規(guī)程》
- 高大模板工程安全技術交底
- 2023年托幼機構(gòu)幼兒園衛(wèi)生保健人員考試題庫及參考答案
- 工程造價司法鑒定難點與應對措施
- 牙隱裂牙隱裂
- 辦公樓裝飾裝修改造工程施工組織設計方案
- 三色鴿食品廠降壓變電所的電氣設計
- YY/T 1181-2021免疫組織化學試劑盒
- GB/T 6680-2003液體化工產(chǎn)品采樣通則
評論
0/150
提交評論