2008年BJUT-MTG漢英機器翻譯系統(tǒng)技術(shù)報告_第1頁
2008年BJUT-MTG漢英機器翻譯系統(tǒng)技術(shù)報告_第2頁
2008年BJUT-MTG漢英機器翻譯系統(tǒng)技術(shù)報告_第3頁
2008年BJUT-MTG漢英機器翻譯系統(tǒng)技術(shù)報告_第4頁
2008年BJUT-MTG漢英機器翻譯系統(tǒng)技術(shù)報告_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2008 年BJUT-MTG 漢英機器翻譯系統(tǒng)技術(shù)報告報告人 李雁鵬北京工業(yè)大學機器翻譯組2008-11-27概要系統(tǒng)簡介預處理、對齊、短語抽取倒排索引評測的實驗過程評測結(jié)果分析系統(tǒng)簡介-系統(tǒng)結(jié)構(gòu)訓練語料庫預處理模塊詞語對齊模塊短語抽取模塊建倒排索引倒排索引漢語分詞模塊評測測試集文件句子提取解碼器結(jié)果文件生成評測結(jié)果文件預處理(1)中文預處理分詞:SEGSDK (由Mandel Shi開發(fā))A3全角字符到半角字符: - BJUT英文預處理句首大寫字母的大小寫統(tǒng)計轉(zhuǎn)換: We are we are標點符號和單詞間的空格插入: end. end.輸入:評測所提供的部分訓練語料輸出:可用于詞語對齊的

2、語料預處理(2)切分標注模塊SEGSDK1.20介紹由Mandel Shi開發(fā)支持Win平臺和Linux平臺漢字簡繁體輸入的切分、標注和命名實體識別缺點:長句子會出錯,因此需要按標點斷開長句為短句例:年,中國化工工業(yè)保持穩(wěn)定增長。 2006年 , 中國 化工 工業(yè) 保持 穩(wěn)定 增長 。詞語對齊訓練利用統(tǒng)計機器翻譯工具GIZA+輸入:預處理后的語料輸出:詞語對齊關(guān)系例:28 . The Committee sympathized with many of the concerns expressed . 28 . 委員會 對 許多 事項 表示 的 關(guān)切 有 同感 。 1:1 2:2 3:2 4:

3、3 5:4 5:6 5:10 5:11 7:5 10:9 11:7 12:12 短語抽取用中科院計算所的“絲路”1.0抽取短語將獲取的對齊關(guān)系轉(zhuǎn)換成短語抽取要求的格式調(diào)用短語抽取工具進行短語抽取利用計算短語翻譯概率工具去除重復的短語抽取建立倒排索引-1抽取出的短語數(shù)量很大:百萬-千萬條常用的方法:Hashmap,效率高但需要很多內(nèi)存倒排索引可以使查找短語更有效率倒排索引的核心:漢字詞語為詞條的詞典,一般詞條只有幾萬條建立倒排索引-2倒排詞典的格式漢語詞語出現(xiàn)詞語的短語數(shù)量短語序號桶的桶號數(shù)組詞典中不直接存短語序號,而是存由短語序號構(gòu)成的“序號桶”的桶號序號桶的格式桶號數(shù)組:以為單元建立倒排索引

4、-3實現(xiàn)詞典、桶都是文件桶號是文件偏移量 方便快速定位建立索引例短語文件中序號為833748的行:宇宙 衛(wèi)星 被 用來 快速 傳送 長途電話 。 | space satellite is used to speed long distance call . | 1 0 1 0建立倒排索引-4序號為833748的短語在倒排詞典中對應(yīng)如下詞條桶文件中,在對應(yīng)的桶號數(shù)組中必然有833748號短語的記錄如:112570688 漢語詞語出現(xiàn)詞語的短語數(shù)量短語序號桶的桶號數(shù)組宇宙188112570688衛(wèi)星419102833520被2906912960000, 31760000, 54878832用來46

5、35111263728快速127781893176傳送50860316528長途電話1958668168建立倒排索引-5在漢英翻譯系統(tǒng)中,很小的倒排詞典常駐內(nèi)存,通過文件偏移量訪問桶文件由于記錄了詞語在短語中的位置,選擇短語時不需要再訪問抽取的短語文件其它輔助文件各個短語有幾個詞語的短語長度文件 - 常駐內(nèi)存短語號對應(yīng)短語文件偏移量的短語偏移文件 - 常駐內(nèi)存抽取的短語文件 - 建索引時讀取,翻譯做最后替換時讀取建立倒排索引-6時間性能建立倒排索引:863的360萬條短語,用時5分6秒CWMT08漢英新聞4014句翻譯,用時14分16秒測試環(huán)境:CPU主頻1.8GHz, 內(nèi)存1GB問題高頻詞引

6、起性能下降倒排索引建在詞語上,依賴中文詞切分:短語對齊到詞語,翻譯時必須保證正確切分成同一個詞語。評測的實驗過程從測試數(shù)據(jù)XML文件中抽取原文句子利用機器翻譯系統(tǒng)逐個句子翻譯人工干預:向系統(tǒng)提供人名、地名和機構(gòu)名等專名約2000多個,例如翻譯結(jié)果轉(zhuǎn)編碼,填入測試結(jié)果格式的XML中人名地名機構(gòu)名Carl,卡爾Cha Liangyong,查良鏞Chen Aiyu,陳愛玉Chen Changzhi,陳昌智Chen Deming,陳德銘Chen Jiulin,陳久霖Carolina,卡羅來那Changchun,長春市Chaoyang District,朝陽區(qū)Chendu,成都市Canada,加拿大Darfur,達爾富爾Beijing-Tianjin inter-city,京津城際CCTV,中央電視臺Commission for Discipline Inspection,紀委Committee of Politics and Law,政法委DONSEN,東森Democratic Alliance,民主聯(lián)盟評測結(jié)果分析評測結(jié)果成績最差的原因最重要的原因是解碼器的設(shè)計和實現(xiàn)還不完善抽取的單詞和短語規(guī)模小沒考慮目標語言英語的特性處理:性、數(shù)、格、時態(tài)、語態(tài)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論