專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施_第1頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施_第2頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施_第3頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施_第4頁
專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、專利文獻(xiàn)日-英機(jī)器翻譯的質(zhì)量改進(jìn)措施 Tsuyoshi Kakita日本特許情報(bào)機(jī)構(gòu)t_kakitajapio.or.jp前言(JapanPatent Information Organization,日本特許許情報(bào)機(jī)機(jī)構(gòu))致力于各各種專利利文獻(xiàn)翻翻譯任務(wù)務(wù)(日-英,英-日)。雖然翻譯譯仍需由由人工完完成,但但機(jī)器翻翻譯的采采用正成成為提高高翻譯效效率不可可或缺的的手段。有效提高高專利文文獻(xiàn)機(jī)器器翻譯質(zhì)質(zhì)量措施施的研究究Japio的質(zhì)量改改進(jìn)措施施Japio并不開發(fā)發(fā)機(jī)器翻翻譯引擎擎。Japio在不改動(dòng)動(dòng)機(jī)器翻翻譯引擎擎的情況況下采用用下面兩種措施施提高機(jī)器器翻譯的的質(zhì)量:1.專利文獻(xiàn)獻(xiàn)翻譯的

2、的技術(shù)術(shù)術(shù)語庫2.專利源文文檔的預(yù)預(yù)編輯處處理專利技術(shù)術(shù)術(shù)語庫庫為了描述述新的發(fā)發(fā)明,新新的技術(shù)術(shù)術(shù)語不不斷被引引入到專專利文獻(xiàn)獻(xiàn)中。商業(yè)的機(jī)機(jī)器翻譯譯詞典基基本上是是靜態(tài)的的。Japio基于真實(shí)實(shí)的專利利文獻(xiàn)創(chuàng)創(chuàng)建并更更新技術(shù)術(shù)語語庫Japio 技術(shù)術(shù)語庫技術(shù)術(shù)語語庫的創(chuàng)創(chuàng)建/更更新日語英語句對(duì)齊的的專利文獻(xiàn)獻(xiàn)平行語料庫技術(shù)術(shù)語語列列表技術(shù)術(shù)語語抽取程序plasmid配列method of removing車輪組立體seed planter press抗體phage antibody積載裝置bale loader: _ 人工評(píng)價(jià)/修正Japio技術(shù)術(shù)語語庫800,000條記錄,每年增加加10

3、0,000條源于技術(shù)術(shù)術(shù)語庫庫的機(jī)器器翻譯詞詞典Japio 技術(shù)術(shù)語庫Japio基于技術(shù)術(shù)術(shù)語庫庫編輯機(jī)機(jī)器翻譯譯詞典,服務(wù)于于專利文文獻(xiàn)翻譯譯Japio 機(jī)器翻譯詞典商業(yè)機(jī)器翻譯引擎與詞典+在重疊詞詞條中選選詞是技技術(shù)術(shù)語語詞典的的關(guān)鍵因因素Japio機(jī)器翻譯譯詞典:選詞方法法Japio采取兩種種對(duì)策解解決選詞詞問題#1:收錄復(fù)合合詞-優(yōu)點(diǎn):翻譯變化化較少(=準(zhǔn)確度高高)-缺點(diǎn):出現(xiàn)頻率率較低(=性價(jià)比低低)#2:基于在真真實(shí)專利利中的出出現(xiàn)頻率率賦予優(yōu)優(yōu)先權(quán)-優(yōu)點(diǎn):簡(jiǎn)單、自自動(dòng)(=性價(jià)比高高)-缺點(diǎn):不夠精確確(=準(zhǔn)確度低低)Japio機(jī)器翻譯譯詞典的的效能評(píng)評(píng)價(jià)通過將Japio機(jī)器翻譯譯

4、詞典加加入商業(yè)業(yè)機(jī)器翻翻譯引擎擎改進(jìn)100個(gè)專利文文獻(xiàn)語句句中的技技術(shù)術(shù)語語翻譯JapaneseEnglish感光體Photosensitivenessphotoreceptor予備収束reserve focus preliminary focus冗長(zhǎng)行tedious line redundant line最外層external layer outmost layer:不多,但基本的的術(shù)語得得以改進(jìn)進(jìn)。源文檔的的預(yù)編輯輯處理專利文獻(xiàn)獻(xiàn)語句的的特性與與當(dāng)前的的機(jī)器翻翻譯技術(shù)術(shù)不相適適應(yīng)-非常長(zhǎng)而而且很復(fù)復(fù)雜-特殊的行行文方式式-缺少主語語/賓語有效措施施:源文檔的的預(yù)編輯輯處理建立技術(shù)日語語-技

5、術(shù)文獻(xiàn)獻(xiàn)(包括專利利)基本行文文規(guī)則以更適應(yīng)應(yīng)于機(jī)器器翻譯技術(shù)日語語基本規(guī)規(guī)則超過50%的根據(jù)技術(shù)日語語(原型)改寫的的語句顯顯示機(jī)器器翻譯準(zhǔn)準(zhǔn)確性得得到了提提高。Example 1:消除歧義義図示例、二単語show、枠示言語mise翻訳。In the example shown in Fig.2, what is shown with frame 36 among two source words “show” is translated into the target word “mise.”図示例、二単語show、枠示単語言語mise翻訳。In the example shown in

6、Fig.2, the word shown with frame 36 among two source words “show” is translated into the target word “mise.”原句技術(shù)日語語技術(shù)日語語基本規(guī)規(guī)則Example 2:語句的縮縮短/拆分好、機(jī)械翻訳裝置、予準(zhǔn)備、第言語第言語対訳出現(xiàn)対、各対対訳中出現(xiàn)頻度検出、當(dāng)該対、當(dāng)該対頻度重対記憶手段記憶手段含。好、機(jī)械翻訳裝置、以下処理行手段備。 ()予準(zhǔn)備、第言語第言語対訳出現(xiàn) 対、各対対訳出現(xiàn)頻度検出 ()當(dāng)該対、當(dāng)該対頻度重対記憶手段記憶原句技術(shù)日語語技術(shù)日語語基本規(guī)規(guī)則Example 2:語句的

7、縮縮短/拆分 A chunk pair which appears in a bilingual corpus of the 1st language and the 2nd language with which a machine translation device was prepared beforehand preferably, Frequency of appearance in inside of a bilingual corpus of each chunk pair is detected, and a means for making a chunk versus a

8、 memory measure memorize the chunk pair concerned and dignity which consists of frequency of the chunk pair concerned is included further.Preferably, a machine translation device is further provided with a means to perform the following processings.(1) Detecting a chunk pair which appears in a bilin

9、gual corpus of the 1st language and the 2nd language which were prepared beforehand, and frequency of appearance in a bilingual corpus of each chunk pair.(2) Memorizing the chunk pair concerned and weight which consists of frequency of the chunk pair concerned by a chunk pair memory measure.原句的機(jī)機(jī)器翻譯譯輸出技術(shù)日語語的機(jī)器器翻譯輸輸出技術(shù)日語語引入翻翻譯過程程Japio將在翻譯譯過程中中引入源源文檔的的技術(shù)日語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論