![題錄信息的機(jī)器翻譯方法.doc_第1頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/b33fa584-9bf9-4169-a7db-d7e23b070382/b33fa584-9bf9-4169-a7db-d7e23b0703821.gif)
![題錄信息的機(jī)器翻譯方法.doc_第2頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/b33fa584-9bf9-4169-a7db-d7e23b070382/b33fa584-9bf9-4169-a7db-d7e23b0703822.gif)
![題錄信息的機(jī)器翻譯方法.doc_第3頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/b33fa584-9bf9-4169-a7db-d7e23b070382/b33fa584-9bf9-4169-a7db-d7e23b0703823.gif)
![題錄信息的機(jī)器翻譯方法.doc_第4頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/b33fa584-9bf9-4169-a7db-d7e23b070382/b33fa584-9bf9-4169-a7db-d7e23b0703824.gif)
![題錄信息的機(jī)器翻譯方法.doc_第5頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-3/10/b33fa584-9bf9-4169-a7db-d7e23b070382/b33fa584-9bf9-4169-a7db-d7e23b0703825.gif)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
題錄信息的機(jī)器翻譯方法* 基金資助:國(guó)家自然科學(xué)基金項(xiàng)目(項(xiàng)目號(hào):60873167), 國(guó)家自然科學(xué)基金項(xiàng)目(項(xiàng)目號(hào): 60736014)李賢華,于淼,蘇勁松,呂雅娟中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190Email: lixianhua, yumiao, sujinsong, 摘 要:本文針對(duì)題錄信息中的人名、地址、機(jī)構(gòu)名和公司名的不同特征,分別設(shè)計(jì)了不同的翻譯方法,并依靠詞典和翻譯規(guī)則,實(shí)現(xiàn)了大部分內(nèi)容的翻譯。對(duì)于人名翻譯,本文設(shè)計(jì)了拼音轉(zhuǎn)換、假名轉(zhuǎn)換和同音轉(zhuǎn)換的翻譯方法;對(duì)于地址、機(jī)構(gòu)名和公司名的翻譯,本文提出了先切分、再翻譯、最后調(diào)序的翻譯流程。實(shí)驗(yàn)表明,利用本文的方法翻譯人名、地址、機(jī)構(gòu)名及公司名,能夠取得不錯(cuò)的翻譯效果。關(guān)鍵詞:題錄信息;機(jī)器翻譯;人名翻譯;地址翻譯;機(jī)構(gòu)名翻譯Approaches to Translate Bibliographic InformationXianhua Li, Miao Yu, Jinsong Su, Yajuan LInstitute of Computing Technology, Chinese Academy of Sciences, Beijing, China 100190Email: lixianhua, yumiao, sujinsong, Abstract: This paper proposes different machine translation approaches for translating bibliographic information, such as person names, addresses, organization names and company names according to their different features. With dictionary and translation rules, most of them can be translated properly. For name translation, we design Pinyin conversion and Kana conversion methods. For address translation organization name translation and company name translation, we propose a procedure which includes splitting, translating and rerordering. Experiments show that these approaches achieve good results.Key words: Bibliographic Information; Machine Translation; Person Name Translation; Address translation; Organization name Translation1 引言機(jī)器翻譯是使用計(jì)算機(jī)進(jìn)行翻譯工作的技術(shù)。從1949年Weaver提出機(jī)器翻譯的概念至今,短短半個(gè)世紀(jì)中,機(jī)器翻譯技術(shù)在各個(gè)領(lǐng)域發(fā)揮著越來(lái)越大的作用,人們?cè)跈C(jī)器翻譯領(lǐng)域取得了很多階段性的成果123。題錄信息的翻譯,是機(jī)器翻譯的任務(wù)之一。隨著信息社會(huì)的不斷發(fā)展,題錄信息的翻譯會(huì)有廣闊的應(yīng)用前景,比如名片翻譯、專利人信息翻譯、刊物作者信息翻譯、英文信函地址翻譯等。題錄信息是書籍、科技文獻(xiàn)、專利文獻(xiàn)等的一個(gè)重要組成部分,它通常包含標(biāo)題、人名、地址、組織機(jī)構(gòu)名、公司名以及郵箱地址等。本文主要處理題錄信息中人名、地址、組織機(jī)構(gòu)名和公司名的翻譯。由于這些信息具有上下文無(wú)關(guān)性、類型容易確定等特點(diǎn),其翻譯相對(duì)于其他內(nèi)容的翻譯來(lái)說(shuō)目標(biāo)更明確、精度更高。在現(xiàn)代化的信息社會(huì)中,題錄信息的翻譯在政治、經(jīng)濟(jì)、外交、貿(mào)易、旅游、新聞出版、文化交流以及日常生活中都有著重要的應(yīng)用。當(dāng)前研究人名翻譯的工作很多,文獻(xiàn)4等提出了人名翻譯的許多注意事項(xiàng),但提出人名翻譯的通用方法的文獻(xiàn)較少;研究地名翻譯的工作也層出不窮56,但是針對(duì)地址翻譯的工作較少;還有一些工作致力于從雙語(yǔ)語(yǔ)料庫(kù)中獲得翻譯7,但這些方法受到語(yǔ)料規(guī)模和時(shí)期的限制。目前大量題錄信息的翻譯工作是人工完成的。人工翻譯雖然有著較高的翻譯質(zhì)量,但是其耗時(shí)長(zhǎng),占用資源多,不適合大規(guī)模的翻譯。這些都是本文將解決的問(wèn)題。本文主要設(shè)計(jì)了題錄信息中人名、地址、機(jī)構(gòu)名和公司名的機(jī)器翻譯方法。采用的方法主要是詞典查找和規(guī)則翻譯等。對(duì)于中國(guó)人名,本文使用拼音轉(zhuǎn)換的方法進(jìn)行翻譯,即通過(guò)查看漢字拼音轉(zhuǎn)換表對(duì)漢字進(jìn)行翻譯;對(duì)于日本人名,本文設(shè)計(jì)了假名轉(zhuǎn)換的方法,即首先將中文的日本人名轉(zhuǎn)換為假名,再將假名轉(zhuǎn)換為相應(yīng)的羅馬字母的方法;對(duì)于歐美國(guó)家人名,本文設(shè)計(jì)了同音轉(zhuǎn)換的方法,即讀音相同的歐美國(guó)家人名,其對(duì)應(yīng)的譯文也相同;對(duì)于地址、機(jī)構(gòu)名和公司名,本文提出了先切分、再翻譯、最后調(diào)序的翻譯流程。用漢語(yǔ)拼音拼寫中國(guó)人名和地址,更加有利于不同國(guó)家的人們了解中國(guó)文化,也更加方便外界與國(guó)人的溝通交流,是中國(guó)和全世界的標(biāo)準(zhǔn)。本文的組織如下:第二部分詳細(xì)介紹了人名翻譯的主要方法和策略,針對(duì)中國(guó)人名、日本人名和歐美人名的特點(diǎn),分別設(shè)計(jì)了相應(yīng)的翻譯方法;第三部分介紹了地址翻譯的方法,將地址翻譯的過(guò)程分為地址切分、局部翻譯、譯文調(diào)序三大部分,并給出了每一步的具體過(guò)程;第四部分主要介紹了如何翻譯機(jī)構(gòu)名和公司名,其翻譯方法與地址翻譯的方法類似。在第五部分中,介紹了實(shí)驗(yàn)情況,經(jīng)過(guò)人工隨機(jī)抽樣測(cè)試,本文設(shè)計(jì)的翻譯方法能夠很好的翻譯人名、地址、機(jī)構(gòu)名和公司名。最后,我們對(duì)本文的工作進(jìn)行了總結(jié),并指出未來(lái)研究工作的方向。2 人名翻譯人名是意義相對(duì)較少的專有名詞,是所指稱對(duì)象的一個(gè)對(duì)應(yīng)符號(hào)。一般地,人名的翻譯方法主要有書寫形態(tài)借用、語(yǔ)音借用、語(yǔ)義翻譯三種。當(dāng)兩種語(yǔ)言處于相同或者相似的文字系統(tǒng)中時(shí),一般采用書寫形態(tài)借用的翻譯方法;當(dāng)兩種語(yǔ)言處于不同的文字系統(tǒng)中時(shí),語(yǔ)音借用起了很大的作用8;當(dāng)人名有著特殊的意義時(shí),一般采用語(yǔ)義翻譯的方法。由于漢語(yǔ)和英語(yǔ)處于不同的文字系統(tǒng),本文主要采用語(yǔ)音借用的翻譯方法。本文主要處理三類人名:中國(guó)人名,日本人名以及歐美國(guó)家人名。人名首先經(jīng)過(guò)詞典進(jìn)行切分查找翻譯;不能通過(guò)詞典得到翻譯的人名,將首先通過(guò)人名分類器得到其對(duì)應(yīng)的類別,然后根據(jù)類別使用不同的翻譯方法進(jìn)行翻譯。2.1詞典的使用詞典是在進(jìn)行題錄信息翻譯時(shí)的輔助資源。由于題錄信息的翻譯相對(duì)于長(zhǎng)句的翻譯來(lái)說(shuō),內(nèi)容簡(jiǎn)短、存儲(chǔ)空間小、查詢效率高,因此,題錄信息的機(jī)器翻譯借助于詞典,顯然是簡(jiǎn)單可行的方法。同時(shí),詞典提供給用戶靈活添加詞典詞條的接口,從而極大的提高翻譯質(zhì)量。另外,對(duì)于一些有歧義的翻譯項(xiàng),將其添加進(jìn)詞典后,由于詞典的優(yōu)先級(jí)較高,譯文優(yōu)先選擇詞典內(nèi)的翻譯項(xiàng),可以盡量避免歧義造成的干擾。本文針對(duì)人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯,分別開(kāi)發(fā)了三本詞典:人名詞典、地名詞典、機(jī)構(gòu)公司詞典,以此來(lái)翻譯不同的內(nèi)容。三部詞典均存儲(chǔ)在數(shù)據(jù)庫(kù)中,其中每個(gè)詞條包含如下特征:序號(hào)、中文端、英文端、所在詞典、用戶ID、添加時(shí)間、是否使用、是否審批等。除了用戶詞典,本文還用到了LDC命名實(shí)體詞典1 /Chinese/。LDC在語(yǔ)料資源的開(kāi)發(fā)加工方面做了大量工作,是國(guó)際上自然語(yǔ)言處理方向最大的資源共享發(fā)布平臺(tái)。本文使用LDC開(kāi)發(fā)的命名實(shí)體詞典,來(lái)輔助題錄信息的翻譯。在進(jìn)入題錄信息翻譯模塊時(shí),首先查找詞典,如果詞典中已包含需要翻譯的詞條,那么,直接將其對(duì)應(yīng)的翻譯取出,作為翻譯結(jié)果;否則,進(jìn)入規(guī)則翻譯流程,用規(guī)則方法實(shí)現(xiàn)詞條的翻譯。使用拼音轉(zhuǎn)換等方法,已經(jīng)可以翻譯題錄信息的大部分內(nèi)容,但仍有少數(shù)的翻譯結(jié)果差強(qiáng)人意。本系統(tǒng)提供給用戶自行添加詞典詞條的接口,用戶可以動(dòng)態(tài)的加入自定義的詞典詞條,從而明顯提高了翻譯質(zhì)量。由于在人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯的模塊中,對(duì)詞典的使用與維護(hù)類似,因此這里一并作出論述,下面不再累述。2.2人名判斷器人名判斷器的主要作用是判斷人名所屬的類別,其主要利用人名的姓氏特征、字符特征和長(zhǎng)度特征進(jìn)行判斷。中國(guó)人名、日本人名和歐美國(guó)家人名的姓氏有顯著的不同,按照姓氏特征可以基本區(qū)分這三種人名。本文收集了中國(guó)姓氏494個(gè),日本姓氏9973個(gè)(其中有對(duì)應(yīng)翻譯的姓氏為3617個(gè)),以此識(shí)別絕大部分的中國(guó)人名和日本人名。字符特征主要用來(lái)識(shí)別歐美國(guó)家人名。歐美國(guó)家的正式人名,姓氏與名字之間多用“”間隔,大多數(shù)名字帶有字母,這是中國(guó)人名和日本人名不具備的特征。通過(guò)符號(hào)特征可以將歐美國(guó)家人名識(shí)別出來(lái)。長(zhǎng)度特征主要用來(lái)判斷通過(guò)姓氏特征和符號(hào)特征無(wú)法識(shí)別的人名。2.3人名翻譯流程及方法針對(duì)上述三類人名,本文分別使用三種不同的方法進(jìn)行翻譯,其主要流程如圖1所示:圖1 人名翻譯主要流程對(duì)于中國(guó)人名,主要采用拼音借用的方法。漢語(yǔ)的文字系統(tǒng)和英語(yǔ)的文字系統(tǒng)雖然不相容,但是羅馬化的漢語(yǔ)拼音和英語(yǔ)形成了一種特殊的書同文關(guān)系,中國(guó)人名通過(guò)漢語(yǔ)拼音直接借用為英語(yǔ)人名,在理論和實(shí)際操作中都是可行的。比如中國(guó)人名“李志強(qiáng)”,直接用拼音“Zhiqiang Li”作為其翻譯即可。對(duì)于日本人名,主要采用假名轉(zhuǎn)換的方法。假名轉(zhuǎn)換,指的是通過(guò)假名做中間橋梁,首先將漢字的日本人名轉(zhuǎn)換為對(duì)應(yīng)的假名形式,再根據(jù)假名的發(fā)音,將其轉(zhuǎn)換為對(duì)應(yīng)的羅馬字母。比如日本人名“藤田良雄”,首先將其用假名“ ”表示,再根據(jù)假名的讀音,轉(zhuǎn)換為“Fujita Yoshio”即可。而對(duì)于歐美國(guó)家人名,如“RA戴維森”,則根據(jù)字符“”進(jìn)行切分后,再逐個(gè)進(jìn)行翻譯。對(duì)于切分后的每個(gè)單元,將其轉(zhuǎn)換為拼音,如果與詞典中詞條的拼音相同,則將其對(duì)應(yīng)翻譯選為譯文,這樣,可以增加詞典中詞條的匹配率。3 地址翻譯地址的翻譯,指的是將中文的地址翻譯為英文的地址。本文主要設(shè)計(jì)了中國(guó)地址、日本地址和歐美國(guó)家地址的翻譯方法。本文收集了中國(guó)省市區(qū)縣的名字共2381個(gè),全世界國(guó)家名220個(gè),作為地址切分和翻譯的基礎(chǔ)。另外,中文地址的書寫特點(diǎn)是先大后小,即將區(qū)域范圍廣的內(nèi)容放在前面,區(qū)域范圍窄的內(nèi)容放在后面;而英文地址的書寫恰好相反。一般地,地址翻譯的主要原則是先小后大,本文采用譯文調(diào)序的方法,實(shí)現(xiàn)譯文的先小后大排列。地址翻譯的主要流程是:先切分,再翻譯,最后調(diào)序。3.1地址切分地址切分,指的是將長(zhǎng)串的地址切分為有獨(dú)立意義的較小單元,方便下一步的翻譯9。地址切分的主要依據(jù)是詞典和切分關(guān)鍵詞。地址切分使用“前向最大匹配法”,并優(yōu)先考慮詞典中的詞條。由于中國(guó)地址和日本地址、歐美地址的切分關(guān)鍵詞不盡相同,本文設(shè)計(jì)了兩組切分關(guān)鍵詞表,一組用來(lái)切分中國(guó)地址,一組用來(lái)切分外國(guó)地址。部分切分關(guān)鍵詞見(jiàn)表1。表1:部分切分關(guān)鍵詞中國(guó)地址切分關(guān)鍵詞:中國(guó),省,市,區(qū),縣,鎮(zhèn),市鎮(zhèn),村,院,鄉(xiāng),溝,隊(duì),局,街,路,大道,莊,屯,組,醫(yī)院,大學(xué),弄,巷,樓,單元,號(hào)外國(guó)地址切分關(guān)鍵詞:國(guó),州,縣,區(qū),市,城,府,目,番,番地,號(hào)房,巷,町,街,路,樓,號(hào),公園,工業(yè)園,工業(yè)區(qū),公寓,單元,信箱,比如地址:安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室。根據(jù)關(guān)鍵詞表,可以切分為:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6 幢 4 單元 102 室。3.2局部翻譯局部翻譯,指的是將切分得到的各個(gè)單元分別翻譯為英文。翻譯的主要方法是查詞典和拼音轉(zhuǎn)換:對(duì)于切分后得到的每一個(gè)單元,首先通過(guò)查詞典得到翻譯;對(duì)于查字典后沒(méi)有翻譯的單元,將符合條件的單元進(jìn)行拼音轉(zhuǎn)換,以得到其對(duì)應(yīng)翻譯。此處的符合條件,指的是該單元的最后部分在拼音轉(zhuǎn)換關(guān)鍵詞表中。部分拼音轉(zhuǎn)換關(guān)鍵詞見(jiàn)表2。上述切分后的地址:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6幢 4單元 102 室,經(jīng)過(guò)地址翻譯后的結(jié)果為:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102.切分關(guān)鍵詞表以及拼音轉(zhuǎn)換關(guān)鍵字表可以隨時(shí)進(jìn)行修改和維護(hù),以提高地址翻譯的準(zhǔn)確率。表2:部分拼音轉(zhuǎn)換關(guān)鍵詞省Province樓/棟/幢/座Buiding市City巷/弄Lane區(qū)District信箱Mailbox縣County院Yard鎮(zhèn)Town單元Unit村Residential層Floor路Road室Room街Street號(hào)No.3.3譯文調(diào)序譯文調(diào)序,即將翻譯后的譯文進(jìn)行一定的調(diào)序,使其符合英文的書寫習(xí)慣。譯文的調(diào)序需要滿足一定的規(guī)律,上述翻譯后的地址:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102,進(jìn)行倒置后得到: Room 102, Unit 4, Building 6, Furongyuan, Liantang Residential, Xinwu District, Wuhu City, Anhui Province。此即原地址“安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室”的最終翻譯結(jié)果。國(guó)外地址與國(guó)內(nèi)地址一樣,只是使用了不同的切分關(guān)鍵詞表。地址除了包含地址信息外,還會(huì)包含機(jī)構(gòu)名、公司名等復(fù)雜地址信息。這部分內(nèi)容的翻譯,將在第4部分得到闡述。4 機(jī)構(gòu)名和公司名翻譯機(jī)構(gòu)名和公司名的翻譯過(guò)程,與地址的翻譯過(guò)程類似,即遵循“先切分,再翻譯,最后調(diào)序”的翻譯流程。相對(duì)地址翻譯而言,機(jī)構(gòu)名和公司名的切分比較簡(jiǎn)單,倒置規(guī)則也較簡(jiǎn)單。由于機(jī)構(gòu)名和公司名中有些部分不能直接用拼音轉(zhuǎn)換的方法進(jìn)行翻譯,其對(duì)詞典的依賴程度相對(duì)較高。本文收集并整理了常見(jiàn)的機(jī)構(gòu)和公司后綴名327個(gè),并設(shè)計(jì)了他們的對(duì)應(yīng)翻譯。常見(jiàn)的機(jī)構(gòu)和公司的后綴名及其翻譯如表3所示。表3:常見(jiàn)的機(jī)構(gòu)和公司的后綴及其翻譯重點(diǎn)實(shí)驗(yàn)室Key Lab基金會(huì)Foundation大學(xué)University聯(lián)合會(huì)Federation鐵道部Ministry of Railways辦公室Office勞動(dòng)部Ministry of Labor株式會(huì)社Co., Ltd.化學(xué)公司Chemical Company有限公司Co., Ltd.研究所Institute研發(fā)中心R&D Center對(duì)于機(jī)構(gòu)名和公司名,首先識(shí)別其所屬地信息并進(jìn)行切分,再結(jié)合用戶詞典、LDC詞典以及后綴表進(jìn)行切分,接著對(duì)各個(gè)部分進(jìn)行翻譯,最后進(jìn)行一定的調(diào)序。例如機(jī)構(gòu)名“深圳華為通信技術(shù)有限公司”,經(jīng)過(guò)切分后,得到“深圳 華為 通信技術(shù)有限公司”;經(jīng)過(guò)翻譯后,得到“Shenzhen Huawei Communication and Technology Co.Ltd”;經(jīng)過(guò)調(diào)序,得到最終翻譯“Huawei Communication and Technology Co.Ltd, Shenzhen”。5 數(shù)據(jù)與實(shí)驗(yàn)本文對(duì)于人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯這三個(gè)模塊分別進(jìn)行了測(cè)試。本文所用的樣例來(lái)自于13477篇專利文件的題錄信息。經(jīng)過(guò)去重處理,最終得到總數(shù)據(jù)量為22705個(gè)人名、6431個(gè)地址以及7709個(gè)機(jī)構(gòu)名和公司名。測(cè)試樣例從數(shù)據(jù)中隨機(jī)抽樣產(chǎn)生,分別抽取了中國(guó)人名、日本人名、歐美國(guó)家人名、地址、機(jī)構(gòu)名和公司名各200條。本文所進(jìn)行的測(cè)試,均是在沒(méi)有使用詞典的基礎(chǔ)上進(jìn)行的。如果添加詞典,翻譯效果將會(huì)得到極大的提升。5.1人名翻譯模塊的測(cè)試對(duì)于人名翻譯模塊,本文主要測(cè)試了人名判斷器的正確率以及人名的翻譯率。人名判斷器的正確率對(duì)于人名翻譯有著重要的意義,因此必須保證人名判斷器有較高的準(zhǔn)確率。人名翻譯率主要是測(cè)試在沒(méi)有外加詞典的情況下,人名得到正確翻譯的情況。本文隨即抽取了中國(guó)名字、日本名字、歐美國(guó)家名字各200個(gè)。通過(guò)人名判斷器后,統(tǒng)計(jì)得到人名判斷器的分類正確率,再經(jīng)過(guò)人名翻譯模塊,最終翻譯結(jié)果的翻譯率進(jìn)行統(tǒng)計(jì)(見(jiàn)表4)。表4:人名翻譯模塊測(cè)試結(jié)果 人名類別測(cè)試類型中國(guó)人名日本人名歐美國(guó)家人名判斷器正確率100%100%100%判斷器召回率100%100%100%翻譯率100%46.5%實(shí)驗(yàn)結(jié)果表明,人名翻譯模塊在沒(méi)有添加詞典的情況下,可以很好的完成中國(guó)人名的翻譯;日本人名的姓氏基本可以得到翻譯,名字則需要借助詞典;歐美國(guó)家的人名則主要依賴詞典中的詞條。由于文中實(shí)驗(yàn)均在不加詞典的前提下進(jìn)行,因此歐美國(guó)家人名的翻譯率并沒(méi)有進(jìn)行測(cè)試。5.2地址翻譯模塊的測(cè)試對(duì)于地址翻譯模塊,本文主要測(cè)試了地址的切分正確率以及翻譯正確率。地址的切分正確率指的是在地址切分過(guò)程中的正確率。如果將人工切分得到的地址塊數(shù)量記為N,機(jī)器切分的地址塊中,與人工切分相同的地址塊數(shù)量記為n,則地址切分正確率為:n/N*100%。地址的翻譯正確率率指的是正確切分并正確翻譯的地址塊部分,占人工切分的地址塊的比例。本文隨機(jī)抽取了200條地址作為測(cè)試語(yǔ)料進(jìn)行翻譯。通過(guò)人工分析,最終測(cè)得該模塊的切分正確率為92.2%,翻譯正確率率為84.8%。切分錯(cuò)誤大多數(shù)是由地址信息本身較為復(fù)雜引起的,比如地址“廣東省深圳市福田區(qū)福華三路與民田路交界處星河國(guó)際花園A2座11”,此處的“福華三路與民田路交界處”并不符合一般的地址寫法,因此發(fā)生切分錯(cuò)誤。但是,如果把“福華三路與民田路交界處”作為詞條加入詞典,則根據(jù)詞典的優(yōu)先權(quán),此地址可以得到正確的切分。實(shí)驗(yàn)表明,中國(guó)的絕大部分地址,都可以通過(guò)拼音轉(zhuǎn)換的方法得到對(duì)應(yīng)的翻譯。外國(guó)地址的翻譯,主要依靠詞典以及規(guī)則翻譯。5.3機(jī)構(gòu)名和公司名翻譯模塊的測(cè)試機(jī)構(gòu)名和公司名翻譯模塊的測(cè)試方法與地址翻譯模塊的測(cè)試方法類似。本文同樣測(cè)試了該模塊的切分正確率和翻譯正確率。本文隨機(jī)抽取了200條機(jī)構(gòu)名及公司名作為測(cè)試語(yǔ)料,經(jīng)過(guò)切分、翻譯以及人工分析,得到該模塊的切分正確率為99.2%,翻譯正確率為63%。實(shí)驗(yàn)表明,在機(jī)構(gòu)名和公司名中,所屬地信息基本都可以得到翻譯,后綴的翻譯效果也較好,翻譯正確率率偏低主要是受機(jī)構(gòu)名和公司名中間的名稱部分的影響。比如公司名“吳江福華織造有限公司”,切分后得到“吳江 福華織造 有限公司”;此時(shí)“吳江”和“有限公司”可以得到很好的翻譯,“福華織造”的翻譯則需要依靠詞典。實(shí)驗(yàn)表明,機(jī)構(gòu)名和公司名的大部分可以通過(guò)拼音轉(zhuǎn)換的方法得到對(duì)應(yīng)翻譯,如果加入詞典,則翻譯效果可以得到極大的提升。6 總結(jié)及將來(lái)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- LY/T 2005-2024國(guó)家級(jí)森林公園總體規(guī)劃規(guī)范
- 蘇人版道德與法治九年級(jí)上冊(cè)7.1《一般違法與犯罪》聽(tīng)課評(píng)課記錄
- 浙教版數(shù)學(xué)七年級(jí)上冊(cè)《6.3 線段的大小比較》聽(tīng)評(píng)課記錄1
- 瑜伽健康活動(dòng)贊助合同(2篇)
- 生態(tài)修復(fù)工程招標(biāo)合同(2篇)
- 甲方因乙方責(zé)任解除合同范本(2篇)
- 2022年新課標(biāo)八年級(jí)上冊(cè)歷史第19課七七事變與全民族抗戰(zhàn)聽(tīng)課評(píng)課記錄
- 人教版地理七年級(jí)下冊(cè)《8.4澳大利亞》聽(tīng)課評(píng)課記錄
- 浙教版數(shù)學(xué)七年級(jí)下冊(cè)《2.4 二元一次方程組的簡(jiǎn)單應(yīng)用》聽(tīng)評(píng)課記錄2
- 人教版數(shù)學(xué)八年級(jí)下冊(cè)《19.3 課題學(xué)習(xí)-選擇方案》聽(tīng)評(píng)課記錄
- 七上 U2 過(guò)關(guān)單 (答案版)
- 五年級(jí)上冊(cè)小數(shù)遞等式計(jì)算200道及答案
- 超高大截面框架柱成型質(zhì)量控制
- GB 9706.1-2020醫(yī)用電氣設(shè)備第1部分:基本安全和基本性能的通用要求
- 森林法講解課件
- 口腔頜面外科:第十六章-功能性外科與計(jì)算機(jī)輔助外科課件
- 信用證審核課件
- 植物工廠,設(shè)計(jì)方案(精華)
- 原發(fā)性膽汁性肝硬化(PBC)課件
- 貸款新人電銷話術(shù)表
- 音箱可靠性測(cè)試規(guī)范
評(píng)論
0/150
提交評(píng)論