




已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
題錄信息的機器翻譯方法* 基金資助:國家自然科學基金項目(項目號:60873167), 國家自然科學基金項目(項目號: 60736014)李賢華,于淼,蘇勁松,呂雅娟中國科學院計算技術研究所,北京 100190Email: lixianhua, yumiao, sujinsong, 摘 要:本文針對題錄信息中的人名、地址、機構(gòu)名和公司名的不同特征,分別設計了不同的翻譯方法,并依靠詞典和翻譯規(guī)則,實現(xiàn)了大部分內(nèi)容的翻譯。對于人名翻譯,本文設計了拼音轉(zhuǎn)換、假名轉(zhuǎn)換和同音轉(zhuǎn)換的翻譯方法;對于地址、機構(gòu)名和公司名的翻譯,本文提出了先切分、再翻譯、最后調(diào)序的翻譯流程。實驗表明,利用本文的方法翻譯人名、地址、機構(gòu)名及公司名,能夠取得不錯的翻譯效果。關鍵詞:題錄信息;機器翻譯;人名翻譯;地址翻譯;機構(gòu)名翻譯Approaches to Translate Bibliographic InformationXianhua Li, Miao Yu, Jinsong Su, Yajuan LInstitute of Computing Technology, Chinese Academy of Sciences, Beijing, China 100190Email: lixianhua, yumiao, sujinsong, Abstract: This paper proposes different machine translation approaches for translating bibliographic information, such as person names, addresses, organization names and company names according to their different features. With dictionary and translation rules, most of them can be translated properly. For name translation, we design Pinyin conversion and Kana conversion methods. For address translation organization name translation and company name translation, we propose a procedure which includes splitting, translating and rerordering. Experiments show that these approaches achieve good results.Key words: Bibliographic Information; Machine Translation; Person Name Translation; Address translation; Organization name Translation1 引言機器翻譯是使用計算機進行翻譯工作的技術。從1949年Weaver提出機器翻譯的概念至今,短短半個世紀中,機器翻譯技術在各個領域發(fā)揮著越來越大的作用,人們在機器翻譯領域取得了很多階段性的成果123。題錄信息的翻譯,是機器翻譯的任務之一。隨著信息社會的不斷發(fā)展,題錄信息的翻譯會有廣闊的應用前景,比如名片翻譯、專利人信息翻譯、刊物作者信息翻譯、英文信函地址翻譯等。題錄信息是書籍、科技文獻、專利文獻等的一個重要組成部分,它通常包含標題、人名、地址、組織機構(gòu)名、公司名以及郵箱地址等。本文主要處理題錄信息中人名、地址、組織機構(gòu)名和公司名的翻譯。由于這些信息具有上下文無關性、類型容易確定等特點,其翻譯相對于其他內(nèi)容的翻譯來說目標更明確、精度更高。在現(xiàn)代化的信息社會中,題錄信息的翻譯在政治、經(jīng)濟、外交、貿(mào)易、旅游、新聞出版、文化交流以及日常生活中都有著重要的應用。當前研究人名翻譯的工作很多,文獻4等提出了人名翻譯的許多注意事項,但提出人名翻譯的通用方法的文獻較少;研究地名翻譯的工作也層出不窮56,但是針對地址翻譯的工作較少;還有一些工作致力于從雙語語料庫中獲得翻譯7,但這些方法受到語料規(guī)模和時期的限制。目前大量題錄信息的翻譯工作是人工完成的。人工翻譯雖然有著較高的翻譯質(zhì)量,但是其耗時長,占用資源多,不適合大規(guī)模的翻譯。這些都是本文將解決的問題。本文主要設計了題錄信息中人名、地址、機構(gòu)名和公司名的機器翻譯方法。采用的方法主要是詞典查找和規(guī)則翻譯等。對于中國人名,本文使用拼音轉(zhuǎn)換的方法進行翻譯,即通過查看漢字拼音轉(zhuǎn)換表對漢字進行翻譯;對于日本人名,本文設計了假名轉(zhuǎn)換的方法,即首先將中文的日本人名轉(zhuǎn)換為假名,再將假名轉(zhuǎn)換為相應的羅馬字母的方法;對于歐美國家人名,本文設計了同音轉(zhuǎn)換的方法,即讀音相同的歐美國家人名,其對應的譯文也相同;對于地址、機構(gòu)名和公司名,本文提出了先切分、再翻譯、最后調(diào)序的翻譯流程。用漢語拼音拼寫中國人名和地址,更加有利于不同國家的人們了解中國文化,也更加方便外界與國人的溝通交流,是中國和全世界的標準。本文的組織如下:第二部分詳細介紹了人名翻譯的主要方法和策略,針對中國人名、日本人名和歐美人名的特點,分別設計了相應的翻譯方法;第三部分介紹了地址翻譯的方法,將地址翻譯的過程分為地址切分、局部翻譯、譯文調(diào)序三大部分,并給出了每一步的具體過程;第四部分主要介紹了如何翻譯機構(gòu)名和公司名,其翻譯方法與地址翻譯的方法類似。在第五部分中,介紹了實驗情況,經(jīng)過人工隨機抽樣測試,本文設計的翻譯方法能夠很好的翻譯人名、地址、機構(gòu)名和公司名。最后,我們對本文的工作進行了總結(jié),并指出未來研究工作的方向。2 人名翻譯人名是意義相對較少的專有名詞,是所指稱對象的一個對應符號。一般地,人名的翻譯方法主要有書寫形態(tài)借用、語音借用、語義翻譯三種。當兩種語言處于相同或者相似的文字系統(tǒng)中時,一般采用書寫形態(tài)借用的翻譯方法;當兩種語言處于不同的文字系統(tǒng)中時,語音借用起了很大的作用8;當人名有著特殊的意義時,一般采用語義翻譯的方法。由于漢語和英語處于不同的文字系統(tǒng),本文主要采用語音借用的翻譯方法。本文主要處理三類人名:中國人名,日本人名以及歐美國家人名。人名首先經(jīng)過詞典進行切分查找翻譯;不能通過詞典得到翻譯的人名,將首先通過人名分類器得到其對應的類別,然后根據(jù)類別使用不同的翻譯方法進行翻譯。2.1詞典的使用詞典是在進行題錄信息翻譯時的輔助資源。由于題錄信息的翻譯相對于長句的翻譯來說,內(nèi)容簡短、存儲空間小、查詢效率高,因此,題錄信息的機器翻譯借助于詞典,顯然是簡單可行的方法。同時,詞典提供給用戶靈活添加詞典詞條的接口,從而極大的提高翻譯質(zhì)量。另外,對于一些有歧義的翻譯項,將其添加進詞典后,由于詞典的優(yōu)先級較高,譯文優(yōu)先選擇詞典內(nèi)的翻譯項,可以盡量避免歧義造成的干擾。本文針對人名翻譯、地址翻譯、機構(gòu)名和公司名翻譯,分別開發(fā)了三本詞典:人名詞典、地名詞典、機構(gòu)公司詞典,以此來翻譯不同的內(nèi)容。三部詞典均存儲在數(shù)據(jù)庫中,其中每個詞條包含如下特征:序號、中文端、英文端、所在詞典、用戶ID、添加時間、是否使用、是否審批等。除了用戶詞典,本文還用到了LDC命名實體詞典1 /Chinese/。LDC在語料資源的開發(fā)加工方面做了大量工作,是國際上自然語言處理方向最大的資源共享發(fā)布平臺。本文使用LDC開發(fā)的命名實體詞典,來輔助題錄信息的翻譯。在進入題錄信息翻譯模塊時,首先查找詞典,如果詞典中已包含需要翻譯的詞條,那么,直接將其對應的翻譯取出,作為翻譯結(jié)果;否則,進入規(guī)則翻譯流程,用規(guī)則方法實現(xiàn)詞條的翻譯。使用拼音轉(zhuǎn)換等方法,已經(jīng)可以翻譯題錄信息的大部分內(nèi)容,但仍有少數(shù)的翻譯結(jié)果差強人意。本系統(tǒng)提供給用戶自行添加詞典詞條的接口,用戶可以動態(tài)的加入自定義的詞典詞條,從而明顯提高了翻譯質(zhì)量。由于在人名翻譯、地址翻譯、機構(gòu)名和公司名翻譯的模塊中,對詞典的使用與維護類似,因此這里一并作出論述,下面不再累述。2.2人名判斷器人名判斷器的主要作用是判斷人名所屬的類別,其主要利用人名的姓氏特征、字符特征和長度特征進行判斷。中國人名、日本人名和歐美國家人名的姓氏有顯著的不同,按照姓氏特征可以基本區(qū)分這三種人名。本文收集了中國姓氏494個,日本姓氏9973個(其中有對應翻譯的姓氏為3617個),以此識別絕大部分的中國人名和日本人名。字符特征主要用來識別歐美國家人名。歐美國家的正式人名,姓氏與名字之間多用“”間隔,大多數(shù)名字帶有字母,這是中國人名和日本人名不具備的特征。通過符號特征可以將歐美國家人名識別出來。長度特征主要用來判斷通過姓氏特征和符號特征無法識別的人名。2.3人名翻譯流程及方法針對上述三類人名,本文分別使用三種不同的方法進行翻譯,其主要流程如圖1所示:圖1 人名翻譯主要流程對于中國人名,主要采用拼音借用的方法。漢語的文字系統(tǒng)和英語的文字系統(tǒng)雖然不相容,但是羅馬化的漢語拼音和英語形成了一種特殊的書同文關系,中國人名通過漢語拼音直接借用為英語人名,在理論和實際操作中都是可行的。比如中國人名“李志強”,直接用拼音“Zhiqiang Li”作為其翻譯即可。對于日本人名,主要采用假名轉(zhuǎn)換的方法。假名轉(zhuǎn)換,指的是通過假名做中間橋梁,首先將漢字的日本人名轉(zhuǎn)換為對應的假名形式,再根據(jù)假名的發(fā)音,將其轉(zhuǎn)換為對應的羅馬字母。比如日本人名“藤田良雄”,首先將其用假名“ ”表示,再根據(jù)假名的讀音,轉(zhuǎn)換為“Fujita Yoshio”即可。而對于歐美國家人名,如“RA戴維森”,則根據(jù)字符“”進行切分后,再逐個進行翻譯。對于切分后的每個單元,將其轉(zhuǎn)換為拼音,如果與詞典中詞條的拼音相同,則將其對應翻譯選為譯文,這樣,可以增加詞典中詞條的匹配率。3 地址翻譯地址的翻譯,指的是將中文的地址翻譯為英文的地址。本文主要設計了中國地址、日本地址和歐美國家地址的翻譯方法。本文收集了中國省市區(qū)縣的名字共2381個,全世界國家名220個,作為地址切分和翻譯的基礎。另外,中文地址的書寫特點是先大后小,即將區(qū)域范圍廣的內(nèi)容放在前面,區(qū)域范圍窄的內(nèi)容放在后面;而英文地址的書寫恰好相反。一般地,地址翻譯的主要原則是先小后大,本文采用譯文調(diào)序的方法,實現(xiàn)譯文的先小后大排列。地址翻譯的主要流程是:先切分,再翻譯,最后調(diào)序。3.1地址切分地址切分,指的是將長串的地址切分為有獨立意義的較小單元,方便下一步的翻譯9。地址切分的主要依據(jù)是詞典和切分關鍵詞。地址切分使用“前向最大匹配法”,并優(yōu)先考慮詞典中的詞條。由于中國地址和日本地址、歐美地址的切分關鍵詞不盡相同,本文設計了兩組切分關鍵詞表,一組用來切分中國地址,一組用來切分外國地址。部分切分關鍵詞見表1。表1:部分切分關鍵詞中國地址切分關鍵詞:中國,省,市,區(qū),縣,鎮(zhèn),市鎮(zhèn),村,院,鄉(xiāng),溝,隊,局,街,路,大道,莊,屯,組,醫(yī)院,大學,弄,巷,樓,單元,號外國地址切分關鍵詞:國,州,縣,區(qū),市,城,府,目,番,番地,號房,巷,町,街,路,樓,號,公園,工業(yè)園,工業(yè)區(qū),公寓,單元,信箱,比如地址:安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室。根據(jù)關鍵詞表,可以切分為:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6 幢 4 單元 102 室。3.2局部翻譯局部翻譯,指的是將切分得到的各個單元分別翻譯為英文。翻譯的主要方法是查詞典和拼音轉(zhuǎn)換:對于切分后得到的每一個單元,首先通過查詞典得到翻譯;對于查字典后沒有翻譯的單元,將符合條件的單元進行拼音轉(zhuǎn)換,以得到其對應翻譯。此處的符合條件,指的是該單元的最后部分在拼音轉(zhuǎn)換關鍵詞表中。部分拼音轉(zhuǎn)換關鍵詞見表2。上述切分后的地址:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6幢 4單元 102 室,經(jīng)過地址翻譯后的結(jié)果為:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102.切分關鍵詞表以及拼音轉(zhuǎn)換關鍵字表可以隨時進行修改和維護,以提高地址翻譯的準確率。表2:部分拼音轉(zhuǎn)換關鍵詞省Province樓/棟/幢/座Buiding市City巷/弄Lane區(qū)District信箱Mailbox縣County院Yard鎮(zhèn)Town單元Unit村Residential層Floor路Road室Room街Street號No.3.3譯文調(diào)序譯文調(diào)序,即將翻譯后的譯文進行一定的調(diào)序,使其符合英文的書寫習慣。譯文的調(diào)序需要滿足一定的規(guī)律,上述翻譯后的地址:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102,進行倒置后得到: Room 102, Unit 4, Building 6, Furongyuan, Liantang Residential, Xinwu District, Wuhu City, Anhui Province。此即原地址“安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室”的最終翻譯結(jié)果。國外地址與國內(nèi)地址一樣,只是使用了不同的切分關鍵詞表。地址除了包含地址信息外,還會包含機構(gòu)名、公司名等復雜地址信息。這部分內(nèi)容的翻譯,將在第4部分得到闡述。4 機構(gòu)名和公司名翻譯機構(gòu)名和公司名的翻譯過程,與地址的翻譯過程類似,即遵循“先切分,再翻譯,最后調(diào)序”的翻譯流程。相對地址翻譯而言,機構(gòu)名和公司名的切分比較簡單,倒置規(guī)則也較簡單。由于機構(gòu)名和公司名中有些部分不能直接用拼音轉(zhuǎn)換的方法進行翻譯,其對詞典的依賴程度相對較高。本文收集并整理了常見的機構(gòu)和公司后綴名327個,并設計了他們的對應翻譯。常見的機構(gòu)和公司的后綴名及其翻譯如表3所示。表3:常見的機構(gòu)和公司的后綴及其翻譯重點實驗室Key Lab基金會Foundation大學University聯(lián)合會Federation鐵道部Ministry of Railways辦公室Office勞動部Ministry of Labor株式會社Co., Ltd.化學公司Chemical Company有限公司Co., Ltd.研究所Institute研發(fā)中心R&D Center對于機構(gòu)名和公司名,首先識別其所屬地信息并進行切分,再結(jié)合用戶詞典、LDC詞典以及后綴表進行切分,接著對各個部分進行翻譯,最后進行一定的調(diào)序。例如機構(gòu)名“深圳華為通信技術有限公司”,經(jīng)過切分后,得到“深圳 華為 通信技術有限公司”;經(jīng)過翻譯后,得到“Shenzhen Huawei Communication and Technology Co.Ltd”;經(jīng)過調(diào)序,得到最終翻譯“Huawei Communication and Technology Co.Ltd, Shenzhen”。5 數(shù)據(jù)與實驗本文對于人名翻譯、地址翻譯、機構(gòu)名和公司名翻譯這三個模塊分別進行了測試。本文所用的樣例來自于13477篇專利文件的題錄信息。經(jīng)過去重處理,最終得到總數(shù)據(jù)量為22705個人名、6431個地址以及7709個機構(gòu)名和公司名。測試樣例從數(shù)據(jù)中隨機抽樣產(chǎn)生,分別抽取了中國人名、日本人名、歐美國家人名、地址、機構(gòu)名和公司名各200條。本文所進行的測試,均是在沒有使用詞典的基礎上進行的。如果添加詞典,翻譯效果將會得到極大的提升。5.1人名翻譯模塊的測試對于人名翻譯模塊,本文主要測試了人名判斷器的正確率以及人名的翻譯率。人名判斷器的正確率對于人名翻譯有著重要的意義,因此必須保證人名判斷器有較高的準確率。人名翻譯率主要是測試在沒有外加詞典的情況下,人名得到正確翻譯的情況。本文隨即抽取了中國名字、日本名字、歐美國家名字各200個。通過人名判斷器后,統(tǒng)計得到人名判斷器的分類正確率,再經(jīng)過人名翻譯模塊,最終翻譯結(jié)果的翻譯率進行統(tǒng)計(見表4)。表4:人名翻譯模塊測試結(jié)果 人名類別測試類型中國人名日本人名歐美國家人名判斷器正確率100%100%100%判斷器召回率100%100%100%翻譯率100%46.5%實驗結(jié)果表明,人名翻譯模塊在沒有添加詞典的情況下,可以很好的完成中國人名的翻譯;日本人名的姓氏基本可以得到翻譯,名字則需要借助詞典;歐美國家的人名則主要依賴詞典中的詞條。由于文中實驗均在不加詞典的前提下進行,因此歐美國家人名的翻譯率并沒有進行測試。5.2地址翻譯模塊的測試對于地址翻譯模塊,本文主要測試了地址的切分正確率以及翻譯正確率。地址的切分正確率指的是在地址切分過程中的正確率。如果將人工切分得到的地址塊數(shù)量記為N,機器切分的地址塊中,與人工切分相同的地址塊數(shù)量記為n,則地址切分正確率為:n/N*100%。地址的翻譯正確率率指的是正確切分并正確翻譯的地址塊部分,占人工切分的地址塊的比例。本文隨機抽取了200條地址作為測試語料進行翻譯。通過人工分析,最終測得該模塊的切分正確率為92.2%,翻譯正確率率為84.8%。切分錯誤大多數(shù)是由地址信息本身較為復雜引起的,比如地址“廣東省深圳市福田區(qū)福華三路與民田路交界處星河國際花園A2座11”,此處的“福華三路與民田路交界處”并不符合一般的地址寫法,因此發(fā)生切分錯誤。但是,如果把“福華三路與民田路交界處”作為詞條加入詞典,則根據(jù)詞典的優(yōu)先權(quán),此地址可以得到正確的切分。實驗表明,中國的絕大部分地址,都可以通過拼音轉(zhuǎn)換的方法得到對應的翻譯。外國地址的翻譯,主要依靠詞典以及規(guī)則翻譯。5.3機構(gòu)名和公司名翻譯模塊的測試機構(gòu)名和公司名翻譯模塊的測試方法與地址翻譯模塊的測試方法類似。本文同樣測試了該模塊的切分正確率和翻譯正確率。本文隨機抽取了200條機構(gòu)名及公司名作為測試語料,經(jīng)過切分、翻譯以及人工分析,得到該模塊的切分正確率為99.2%,翻譯正確率為63%。實驗表明,在機構(gòu)名和公司名中,所屬地信息基本都可以得到翻譯,后綴的翻譯效果也較好,翻譯正確率率偏低主要是受機構(gòu)名和公司名中間的名稱部分的影響。比如公司名“吳江福華織造有限公司”,切分后得到“吳江 福華織造 有限公司”;此時“吳江”和“有限公司”可以得到很好的翻譯,“福華織造”的翻譯則需要依靠詞典。實驗表明,機構(gòu)名和公司名的大部分可以通過拼音轉(zhuǎn)換的方法得到對應翻譯,如果加入詞典,則翻譯效果可以得到極大的提升。6 總結(jié)及將來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 發(fā)動機油品對性能影響研究考核試卷
- 供水設施維護考核試卷
- 田徑場地施工質(zhì)量控制考核試卷
- 機器學習在虛擬貨幣市場趨勢分析中的應用考核試卷
- 公司出納工作總結(jié)合集14篇
- 兔年新春七言對聯(lián)
- 商務局機關黨支部自我剖析材料
- 武侯區(qū)人才日活動方案
- 植樹節(jié)三月份活動方案
- 法庭企業(yè)團建活動方案
- 攝影構(gòu)圖(共86張PPT)
- 信念的力量課件
- 金蟬的養(yǎng)殖管理
- 大海(張雨生)原版五線譜鋼琴譜正譜樂譜
- 有限空間作業(yè)實操評分標準
- 規(guī)劃展覽館方案-南京軍區(qū)軍史館布展總體方案
- (完整版)煤礦主扇司機考試卷(含答案)
- 雙柏縣工業(yè)用大麻開發(fā)種植實施計劃方案
- 租賃房屋交接清單
- 吊頂檢驗報告(共5頁)
- (完整版)10KV電力線路施工組織設計方案
評論
0/150
提交評論