漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱_第1頁(yè)
漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱_第2頁(yè)
漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱_第3頁(yè)
漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱_第4頁(yè)
漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1/1漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱ThePitfallsandComplexitiesofChinesetoChineseConversion

漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱漢字簡(jiǎn)繁轉(zhuǎn)換的複雜性和陷阱

春遍雀來(lái)(JackHalpern)

日中韓辭典研究所所長(zhǎng)

華留萬(wàn)陽(yáng)貳(Jouni

Kerman)Kerman)

日中韓辭典刊行會(huì)軟件開(kāi)發(fā)總工程師

目錄

0.

漢字簡(jiǎn)繁轉(zhuǎn)換的復(fù)雜性和陷阱

春遍雀來(lái),日中韓辭典研究所所長(zhǎng)春遍雀來(lái)華留萬(wàn)陽(yáng)貳,日中韓辭典刊行會(huì)軟件開(kāi)發(fā)總工程師華留萬(wàn)陽(yáng)貳

0.

灣教育部出版了幾種字符表,例如有4808個(gè)字的“常用國(guó)字標(biāo)準(zhǔn)字體表”,作為正確字形的標(biāo)準(zhǔn)。

1.2簡(jiǎn)體與繁體中文

雖然簡(jiǎn)體與繁體中文的最大區(qū)別在于字形,我們將會(huì)看到兩者之間還有字符集、編碼方式和詞匯選擇方面的差異。從實(shí)用角度來(lái)說(shuō),簡(jiǎn)體中文簡(jiǎn)體中文一詞通常指滿足以下條件的中文文本:簡(jiǎn)體中文1.字形字形:簡(jiǎn)體中文必須是用簡(jiǎn)體的字形書寫的(除非不存在簡(jiǎn)體的形式)。字形2.字符集字符集:簡(jiǎn)體中文通常使用國(guó)標(biāo)碼字符集,或其擴(kuò)充版本,國(guó)家標(biāo)準(zhǔn)擴(kuò)展碼(GBK)。字符集3.編碼編碼:簡(jiǎn)體中文通常將國(guó)標(biāo)碼編為EUC-CN或用于互聯(lián)網(wǎng)傳送數(shù)據(jù)的HZ的文本。編碼4.詞匯用法詞匯用法:詞匯的選擇采用中國(guó)大陸的用法。詞匯用法與此類似,繁體中文繁體中文一詞一般指滿足以下條件的中文文本:繁體中文1.字形字形:繁體中文必須是用繁體的字形書寫的。字形2.字符集字符集:繁體中文通常使用大五碼字符集。字符集3.編碼編碼:繁體中文通常編為大五碼。編碼4.詞匯用法詞匯用法:詞匯的選擇采用臺(tái)灣或香港的用法。詞匯用法以上只有第一條是必要條件?!昂?jiǎn)體”中文的定義決定它不能用繁體的字形書寫,除非一個(gè)繁體字形不存在對(duì)應(yīng)的簡(jiǎn)體形式。同樣,“繁體”中文除了某些次要的例外情況(如某些專有名詞)之外必須不能以簡(jiǎn)體字形書寫。字符集和編碼方式的限制要小一些,下面1.4節(jié)會(huì)討論這一點(diǎn)。詞匯的用法上也有一些變化。例如臺(tái)灣文本可能會(huì)包括某些中華人民共和國(guó)式的詞匯,而新加坡的文本可能會(huì)采用臺(tái)灣而不是大陸的計(jì)算機(jī)術(shù)語(yǔ)。盡管如此,總的來(lái)說(shuō)簡(jiǎn)體中文和繁體中文兩詞的用法如上文所述。

1.3問(wèn)題本質(zhì)

中華人民共和國(guó)的語(yǔ)言改革對(duì)書面漢語(yǔ)產(chǎn)生了重大影響。從處理中文數(shù)據(jù)的角度出發(fā),最相關(guān)的問(wèn)題有以下幾個(gè):1.許多字形經(jīng)過(guò)了較大的簡(jiǎn)化,以至無(wú)法辨認(rèn)它們的繁體形式。例如,繁體中文中的徵變?yōu)楹?jiǎn)體中文中的征。征2.在很多情況下,一個(gè)簡(jiǎn)體字與多個(gè)繁體字對(duì)應(yīng)(相反的情況較為少見(jiàn)),例如簡(jiǎn)體中文的征與繁體中文的徵和征對(duì)應(yīng)。根據(jù)上下文意思,通常只有一個(gè)是對(duì)的。征徵征3.有時(shí)一個(gè)簡(jiǎn)體字與多個(gè)繁體字對(duì)應(yīng),根據(jù)上下文意思,每個(gè)對(duì)應(yīng)的繁體都可能是對(duì)的。4.簡(jiǎn)體中文使用的國(guó)標(biāo)碼標(biāo)準(zhǔn)與繁體中文使用的大五碼標(biāo)準(zhǔn)互不相容,因此雙方都產(chǎn)生了無(wú)數(shù)的漏字。

-3-

上述的第二條是中文簡(jiǎn)繁轉(zhuǎn)換的關(guān)鍵問(wèn)題,也是這篇文章的重點(diǎn)。在對(duì)此的討論中采用的“經(jīng)典”例子是繁體字發(fā)和髮。從詞源學(xué)來(lái)看它們是兩個(gè)不同的字,被合并成了一個(gè)簡(jiǎn)體發(fā)髮字發(fā)。下表展示了這個(gè)以及其它一個(gè)簡(jiǎn)體字對(duì)應(yīng)到多個(gè)繁體字的例子。發(fā)

表1:簡(jiǎn)繁一對(duì)多的對(duì)應(yīng)

簡(jiǎn)體源字繁體標(biāo)字語(yǔ)義EmitHairDryTrunkIntervenetreetrunkNoodlesFaceAfterQueen繁體例子

發(fā)發(fā)干干干干面面后后

fāfàgāngàngāngànmiànmiànhòuhòu

發(fā)髮乾幹干榦麵面後后

出發(fā)頭髮乾燥精幹干渉楨榦湯麵面具後天王后

startoffhairdryable,stronginterferewithcentralfigurenoodlesoupmaskdayaftertomorrowqueen

如上所示,成功地把這些簡(jiǎn)體字轉(zhuǎn)換為對(duì)應(yīng)的繁體字取決于它們的上下文,尤其是它們所在的詞。轉(zhuǎn)換往往不能僅從一個(gè)碼點(diǎn)對(duì)應(yīng)到另一個(gè)碼點(diǎn),而是必須建立在更大的語(yǔ)言單位上,比如詞。除上表之外,數(shù)以百計(jì)的其它簡(jiǎn)體字也與多個(gè)繁體字對(duì)應(yīng),產(chǎn)生了語(yǔ)義不清的以一對(duì)多的對(duì)應(yīng),只有上下文能決定它們的關(guān)系。在這篇文章里,這些對(duì)應(yīng)被稱為多字體多字體的對(duì)應(yīng),因?yàn)橐欢嘧煮w個(gè)簡(jiǎn)體字——或書寫單位——可能會(huì)與多個(gè)的繁體字對(duì)應(yīng),而相反情況也成立。

1.4字符集和編碼

這篇文章主旨不是對(duì)中文字符集和編碼方法進(jìn)行深入的討論。小林劍(KenLunde)的重要著作CJKVInformationProcessing有對(duì)此的討論。[Lunde1999]這一節(jié)只簡(jiǎn)單地概括一些重要問(wèn)題,因?yàn)槲覀兊闹饕康氖钦撌龈咭患?jí)的語(yǔ)言學(xué)問(wèn)題。簡(jiǎn)體中文通常使用國(guó)標(biāo)碼字符集,或其擴(kuò)充版本國(guó)家標(biāo)準(zhǔn)擴(kuò)展碼,并通常被編為EUC-CN。在互聯(lián)網(wǎng)上傳送數(shù)據(jù)時(shí),它常常被編為HZ,或是更早的zW。繁體中文通常被編為大五碼,有時(shí)也被編為基于臺(tái)灣國(guó)家標(biāo)準(zhǔn)(ChineseNationalStandard)CNS11643-1992字符集上的EUC-TW。在日本,有些文字處理系統(tǒng)通過(guò)JISX0208:1997字符集及其附加部分處理中文字符。同樣,也可以把中文編為韓國(guó)的KSX1001:1992字符集。但是,這兩種情況都沒(méi)有足夠的簡(jiǎn)體或繁體中文字供日常中文之用。此外還有用來(lái)編輯中文的字符集CCCII(仍在使用的臺(tái)灣早期標(biāo)準(zhǔn)),可見(jiàn)情況的復(fù)雜程度。從簡(jiǎn)繁碼轉(zhuǎn)換的角度出發(fā),一個(gè)重要問(wèn)題是國(guó)標(biāo)碼和大五碼互不相容。前者包括了6763個(gè)字,而后者有13053個(gè)字。國(guó)標(biāo)碼大約三分之一的字是大五碼里沒(méi)有的簡(jiǎn)體字。這一點(diǎn)導(dǎo)致了雙方的許多漏字現(xiàn)象,如下表所示。

-4-

表2:國(guó)標(biāo)碼和大五碼的不相容性

漢字國(guó)標(biāo)碼(EUC)國(guó)標(biāo)碼(EUC)***CDB7B7A2BCC6B8C9C0EF大五碼C059B56FAD70***A47AA8BDUnicode982D767C8A08593453D18BA15E7291CC

頭發(fā)計(jì)頭發(fā)計(jì)干里

簡(jiǎn)繁互轉(zhuǎn)中的困難并不僅限于國(guó)標(biāo)碼和大五碼字符集。其實(shí),大五碼只包括了繁體字的一個(gè)子集。出乎意料的是,國(guó)標(biāo)碼也不包括某些簡(jiǎn)體字,如下表所示。

表3:國(guó)標(biāo)碼和大五碼中沒(méi)有的簡(jiǎn)繁對(duì)應(yīng)

簡(jiǎn)體Unicode簡(jiǎn)體Unicode簡(jiǎn)體源字7EBB8BEA8D5194D4961398CF99789A899C979E40繁體標(biāo)字繁體Unicode繁體Unicode7D358B788D14930F95E098BA99049A6B9C029D50

纻诪赑铔阓飏饸骉鲗鹀

紵譸贔錏闠颺餄驫鰂鵐

國(guó)際標(biāo)準(zhǔn)ISO-2022:1994[ISO1994]試圖建立一個(gè)緊縮字編碼系統(tǒng)來(lái)處理這些不相容的問(wèn)題,用逸出順序機(jī)構(gòu)表示字符集之間的轉(zhuǎn)換,但這并沒(méi)有完全解決這一問(wèn)題。國(guó)際標(biāo)準(zhǔn)字符集Unicode/ISO10646解決了許多與簡(jiǎn)繁碼互轉(zhuǎn)有關(guān)的問(wèn)題。[Unicode1996]因?yàn)閁nicode是這兩種標(biāo)準(zhǔn)的超大集,在允許Unicode的系統(tǒng)里可以表現(xiàn)所有的大五碼和國(guó)標(biāo)碼的碼點(diǎn),并在同一個(gè)文件中展示它們。這大大簡(jiǎn)化了簡(jiǎn)繁在碼點(diǎn)一級(jí)的互轉(zhuǎn)。盡管還有一些問(wèn)題需要處理(例如現(xiàn)有版本排除了許多字[Meyer1998]),Unicode有效地解決了大五碼和國(guó)標(biāo)碼字符集之間不相容而導(dǎo)致的問(wèn)題。

2.轉(zhuǎn)換的四級(jí)

自動(dòng)把簡(jiǎn)體中文轉(zhuǎn)換為繁體中文的過(guò)程(在一定程度上,從繁體中文到簡(jiǎn)體中文也是如此)

-5-

潛在著許多復(fù)雜問(wèn)題和常見(jiàn)錯(cuò)誤。這個(gè)轉(zhuǎn)換是從容易引起無(wú)數(shù)錯(cuò)誤的一級(jí)碼對(duì)轉(zhuǎn)換開(kāi)始,直到會(huì)參考語(yǔ)義和句法的四級(jí)語(yǔ)境轉(zhuǎn)換,通過(guò)這從淺入深的四級(jí)轉(zhuǎn)換方法進(jìn)行處理,以期達(dá)到近乎完美的效果。下表描述了每一級(jí)。

表4:轉(zhuǎn)換的四級(jí)

一級(jí)二級(jí)三級(jí)四級(jí)碼對(duì)的字對(duì)的詞對(duì)的語(yǔ)境的字對(duì)字,碼基礎(chǔ)上的替換詞對(duì)詞,詞基礎(chǔ)上的轉(zhuǎn)換詞對(duì)詞,詞匯基礎(chǔ)上的轉(zhuǎn)換詞對(duì)詞,語(yǔ)境基礎(chǔ)上的翻譯

一級(jí):2.1一級(jí):碼對(duì)轉(zhuǎn)換

2.1.1基本概念

最簡(jiǎn)單但也是最不可靠的簡(jiǎn)繁或繁簡(jiǎn)轉(zhuǎn)換的方法是在碼點(diǎn)對(duì)碼點(diǎn)的基礎(chǔ)上進(jìn)行轉(zhuǎn)換;就是說(shuō),在硬編碼的,一對(duì)一的對(duì)應(yīng)表里找到源點(diǎn),然后用另一個(gè)字符集(例如大五碼0xB0EA的繁體國(guó))的標(biāo)碼點(diǎn)取代這個(gè)字符集的一個(gè)源碼點(diǎn)(例如國(guó)標(biāo)碼(EUC)0xB9FA的簡(jiǎn)體國(guó)),國(guó)國(guó)進(jìn)行簡(jiǎn)單的替換。這種轉(zhuǎn)換可被描述為字對(duì)字,碼基礎(chǔ)上的替換,又稱碼對(duì)碼對(duì)轉(zhuǎn)換,因?yàn)閰⑴c轉(zhuǎn)換過(guò)程的單位僅碼對(duì)限于單個(gè)碼點(diǎn)。也就是說(shuō),文本沒(méi)有被分解為更高級(jí)的語(yǔ)言單位,而是作為互不相關(guān)的多字節(jié)字的一序列編碼值被進(jìn)行處理。以下是一個(gè)一對(duì)一的編碼對(duì)應(yīng)例表。

表5:編碼對(duì)應(yīng)表

簡(jiǎn)體源字國(guó)標(biāo)碼(EUC)國(guó)標(biāo)碼(EUC)B3F6B7A2B8C9B0B5C0EFD5F7C3C5CCC0繁體標(biāo)字大五碼A558B56FA47AB774B8CCBC78AAF9B4F6省略的候選項(xiàng)

出發(fā)干暗里征門湯

出發(fā)幹暗裡徵門湯

齣髮乾干榦闇里裏征

由于這種表把每個(gè)源字只對(duì)應(yīng)到一個(gè)標(biāo)字,其它有可能的候選項(xiàng)就被忽略了(見(jiàn)“省略的候選項(xiàng)”一欄),經(jīng)常導(dǎo)致錯(cuò)誤的轉(zhuǎn)換。

-6-

例如,一個(gè)簡(jiǎn)體的字符串“頭發(fā)”不是作為一個(gè)單位處理,而是被逐字轉(zhuǎn)換。由于簡(jiǎn)體的頭頭只與繁體的頭對(duì)應(yīng),轉(zhuǎn)換是成功的。但是,由于簡(jiǎn)體的發(fā)與繁體的髮(用于頭發(fā))和繁體的發(fā)頭發(fā)髮發(fā)(用于發(fā)射)對(duì)應(yīng),轉(zhuǎn)換就可能失敗。就是說(shuō),一種經(jīng)常出現(xiàn)的情況是,如果表把發(fā)對(duì)應(yīng)到發(fā),發(fā)發(fā)結(jié)果將是無(wú)意義的頭發(fā)頭發(fā):“頭”+“發(fā)射”。另一方面,如果表把發(fā)對(duì)應(yīng)到髮,頭發(fā)發(fā)髮頭發(fā)會(huì)被正頭發(fā)頭發(fā)確地轉(zhuǎn)換為頭髮頭髮,但其它的常見(jiàn)詞匯,如簡(jiǎn)體的出發(fā)出發(fā),會(huì)被轉(zhuǎn)換為無(wú)意義的出髮出髮:“出去”頭髮出發(fā)出髮+“頭發(fā)”。如果一個(gè)復(fù)合詞的每個(gè)語(yǔ)素都與多于一個(gè)的字對(duì)應(yīng)的話(多字體的復(fù)合詞),這些問(wèn)題就更加復(fù)雜了,因?yàn)檫@樣排列的數(shù)目會(huì)以幾何級(jí)數(shù)增長(zhǎng),如下表所示。

表6:簡(jiǎn)繁多字體的復(fù)合詞

簡(jiǎn)體源字詞義characteristicstartoffdrysecretlylongdistanceaswing正確繁體其它繁體候選項(xiàng)

特征出發(fā)干燥暗里千里秋千

特徵出發(fā)乾燥暗裡千里鞦韆

特征出髮干燥暗里韆里秋千

齣髮幹燥闇里千裡秋韆

齣發(fā)榦燥闇裡暗裏闇裏韆裡千裏韆裏鞦千

很明顯,當(dāng)存在幾個(gè)候選項(xiàng)供挑選時(shí),一對(duì)一的碼對(duì)轉(zhuǎn)換很有可能產(chǎn)生錯(cuò)誤的結(jié)合。這表明在沒(méi)有(顯著的)人為干預(yù)時(shí)不能靠碼對(duì)轉(zhuǎn)換提供準(zhǔn)確的結(jié)果。

2.1.2轉(zhuǎn)換過(guò)程

有三種不同的,越來(lái)越復(fù)雜的方式進(jìn)行碼對(duì)轉(zhuǎn)換:1.簡(jiǎn)單化的轉(zhuǎn)換簡(jiǎn)單化的轉(zhuǎn)換:指基于一對(duì)一的對(duì)應(yīng)表的系統(tǒng),在幾個(gè)選項(xiàng)中選擇標(biāo)碼點(diǎn)時(shí)沒(méi)有充簡(jiǎn)單化的轉(zhuǎn)換分考慮它的出現(xiàn)頻率。簡(jiǎn)單化的轉(zhuǎn)換經(jīng)常產(chǎn)生不令人滿意的結(jié)果,需要很大的人為編輯的努力。不幸的是,很多轉(zhuǎn)換手段采取這種方法。它唯一的優(yōu)點(diǎn)是使用簡(jiǎn)單,花費(fèi)不多。2.基于頻率的轉(zhuǎn)換基于頻率的轉(zhuǎn)換:指建立在一對(duì)一對(duì)應(yīng)表上的一種系統(tǒng),其中標(biāo)碼點(diǎn)是幾個(gè)選項(xiàng)中基于頻率的轉(zhuǎn)換的第一個(gè),從按出現(xiàn)頻率排列的表中被選擇出來(lái)。2.1.1節(jié)里的表5是一個(gè)基于頻率的對(duì)應(yīng)的例表。盡管這種方法經(jīng)常產(chǎn)生正確的結(jié)果,在許多情況里,多標(biāo)對(duì)應(yīng)里的第二個(gè)(或第三個(gè))選項(xiàng)本身也是高頻率的,這時(shí)它就有可能失敗。比如發(fā)這個(gè)例子,與繁體的發(fā)發(fā)發(fā)和髮都對(duì)應(yīng)。髮我們調(diào)查了幾個(gè)基于頻率的系統(tǒng),發(fā)現(xiàn)了很多錯(cuò)誤和遺漏。建立一個(gè)基于頻率的碼對(duì)轉(zhuǎn)換程序的最大困難是迄今為止還不存在建立在可靠統(tǒng)計(jì)上的準(zhǔn)確全面的對(duì)應(yīng)表,需要進(jìn)行廣泛的研究。附錄C給出了一個(gè)知名轉(zhuǎn)換程序里的錯(cuò)誤對(duì)應(yīng)的例子,并與日中韓辭典研究所發(fā)展擴(kuò)充的對(duì)應(yīng)表作了比較。3.基于候選項(xiàng)的轉(zhuǎn)換基于候選項(xiàng)的轉(zhuǎn)換:指建立在一對(duì)多的對(duì)應(yīng)表上的系統(tǒng),候選項(xiàng)按出現(xiàn)頻率排列?;诤蜻x項(xiàng)的轉(zhuǎn)換在一對(duì)多對(duì)應(yīng)的情況下,用戶得到一串候選項(xiàng),或是直接出現(xiàn)在用戶界面(UI)上,

-7-

或是一個(gè)括號(hào)里的表。幾個(gè)聲稱支持繁體中文的主要中文電子字典和文字處理程序似乎是建立在簡(jiǎn)單化的方法上的。有些中文輸入系統(tǒng)結(jié)合了(1)和(2)。第三種方法很少見(jiàn),用于我們內(nèi)部的碼對(duì)轉(zhuǎn)換程序之一。概括地說(shuō),碼對(duì)轉(zhuǎn)換有以下缺點(diǎn):1.如果使用簡(jiǎn)單化的轉(zhuǎn)換,通常會(huì)產(chǎn)生不滿意的結(jié)果。2.即使使用較復(fù)雜的轉(zhuǎn)換(如上述的(2)和(3)),也還可能需要大量的人為干預(yù),如需選擇候選項(xiàng)和/或進(jìn)行事后編輯。3.徹底地忽略了詞匯用法上的區(qū)別(詳見(jiàn)下文)。

二級(jí):2.2二級(jí):字對(duì)轉(zhuǎn)換

2.2.1基本概念

簡(jiǎn)繁轉(zhuǎn)換的更復(fù)雜的下一級(jí)可被描述為詞到詞,詞基礎(chǔ)上的轉(zhuǎn)換。我們稱之為字對(duì)轉(zhuǎn)換字對(duì)轉(zhuǎn)換,因字對(duì)轉(zhuǎn)換為參與轉(zhuǎn)換過(guò)程的單位是拼字單位:也就是說(shuō),在字典和對(duì)應(yīng)表里被作為單個(gè)條目處理的字或有意義的字的結(jié)合。在此文中,我們稱之為詞的單位詞的單位代表有意義的語(yǔ)言單位,詞的單位。例如單字詞(自由形式),詞的單位象詞綴這樣的語(yǔ)素(黏附語(yǔ)素),多字復(fù)合詞(自由和黏附),甚至更大的單位,比如成語(yǔ)詞組。為簡(jiǎn)短起見(jiàn),如果不會(huì)造成混亂的話,我們有時(shí)會(huì)使用詞作為詞的單位的同義詞。

2.2.2轉(zhuǎn)換過(guò)程

字對(duì)轉(zhuǎn)換通過(guò)四個(gè)步驟在詞的單位的基礎(chǔ)上進(jìn)行。1.把源句或詞組分詞為詞的單位。2.在拼字(詞的單位)的對(duì)應(yīng)表里查找詞的單位。3.產(chǎn)生標(biāo)詞的單位。4.在需要的編碼里輸出標(biāo)詞的單位。例如,簡(jiǎn)體詞組梳頭發(fā)梳頭發(fā)先被分詞為梳這個(gè)詞的單位(單字自由語(yǔ)素)和頭發(fā)頭發(fā)(兩字復(fù)合詞),把梳頭發(fā)梳頭發(fā)每個(gè)單位都在對(duì)應(yīng)表里查找一遍,然后被轉(zhuǎn)換為標(biāo)字符串梳頭髮要點(diǎn)在于頭發(fā)沒(méi)有被分解,梳頭髮。頭發(fā)梳頭髮而是被作為單個(gè)詞的單位處理。(實(shí)際上,這個(gè)例子由于梳頭梳頭也是一個(gè)正當(dāng)?shù)脑~的單位而更梳頭加復(fù)雜了。)以下是一個(gè)拼字(詞的單位)的對(duì)應(yīng)例表。附錄B給出了一個(gè)更詳細(xì)的表。

表7:拼字對(duì)應(yīng)表

簡(jiǎn)體詞的單位繁體詞的單位拼音tóufatèzhēngchūfā

-8-

詞義HairCharacteristicStartoff

頭發(fā)特征出發(fā)

頭髮特徵出發(fā)

干燥暗里千里秋千

乾燥暗裡千里鞦韆

gānzàoànl?qiānl?qiūqiān

DrySecretlylongdistanceaswing

值得注意的是,在碼對(duì)轉(zhuǎn)換和字對(duì)轉(zhuǎn)換中,結(jié)果都必須和源有拼字上的對(duì)應(yīng)拼字上的對(duì)應(yīng)。就是說(shuō),源和拼字上的對(duì)應(yīng)標(biāo)都不過(guò)是同樣的底層詞位的拼字變體(見(jiàn)下2.3.1節(jié))。這意味著每個(gè)源字都必須和標(biāo)字一致,或是精確的一對(duì)一對(duì)應(yīng)。例如,在把簡(jiǎn)體的計(jì)算機(jī)計(jì)算機(jī)轉(zhuǎn)換為繁體的計(jì)算機(jī)計(jì)算機(jī)時(shí),計(jì)與計(jì)對(duì)應(yīng),算與算對(duì)應(yīng)(同樣的文字),計(jì)算機(jī)計(jì)算機(jī)計(jì)計(jì)算算機(jī)計(jì)算機(jī)“翻譯”為繁體機(jī)和機(jī)有一對(duì)一的對(duì)應(yīng)。和詞對(duì)轉(zhuǎn)換(三級(jí))不同的是,沒(méi)有把簡(jiǎn)體的計(jì)算機(jī)計(jì)算機(jī)的電腦電腦的企圖。電腦

三級(jí):2.3三級(jí):詞對(duì)轉(zhuǎn)換

2.3.1基本概念

只要源詞和標(biāo)詞有拼字上的對(duì)應(yīng),如簡(jiǎn)體的頭發(fā)頭發(fā)和繁體的頭髮頭髮,字對(duì)轉(zhuǎn)換是有效的。然而,頭發(fā)頭髮臺(tái)灣,香港,和中華人民共和國(guó)有時(shí)在創(chuàng)造技術(shù)術(shù)語(yǔ)時(shí)采取了不同的途徑。結(jié)果是在很多情況下簡(jiǎn)體和繁體對(duì)同一概念有完全不同的詞。也許最有名的例子就是計(jì)算機(jī)了,在簡(jiǎn)體里通常叫做計(jì)算機(jī)計(jì)算機(jī),而在繁體里是電脳電脳。計(jì)算機(jī)電脳簡(jiǎn)繁互轉(zhuǎn)更復(fù)雜的下一級(jí)是把這些不同之處考慮進(jìn)去,從一個(gè)“翻譯”出另一個(gè),也可被形詞對(duì)轉(zhuǎn)換,因?yàn)閰⑴c轉(zhuǎn)換過(guò)程的單位是語(yǔ)義容為詞到詞的,詞匯基礎(chǔ)上的轉(zhuǎn)換。我們稱之為詞對(duì)轉(zhuǎn)換詞對(duì)轉(zhuǎn)換單位,或詞位。一個(gè)詞位詞位是詞匯的基本單位,例如單字詞,詞綴,或復(fù)合詞。在這篇文章里,它也代表更大詞位的單位,例如成語(yǔ)詞組。為了實(shí)用的目的,它和字對(duì)轉(zhuǎn)換里用的詞的單位類似,但詞位用在這里強(qiáng)調(diào)這個(gè)轉(zhuǎn)換過(guò)程的語(yǔ)義上的本質(zhì)。在某種意義上,把一個(gè)詞位轉(zhuǎn)換為另一個(gè)和翻譯兩種語(yǔ)言有相似之處,但我們稱之為詞對(duì)轉(zhuǎn)換而不是“翻譯”,因?yàn)樗窒抻谝婚T標(biāo)準(zhǔn)語(yǔ)言的幾種互相有緊密關(guān)系的變體的詞和詞組,而且不象普通的雙語(yǔ)翻譯那樣變動(dòng)詞的順序。

2.3.2轉(zhuǎn)換過(guò)程

讓我們用簡(jiǎn)體字符串信息處理信息處理作例子。它先被分詞為詞位信息處理在詞位對(duì)應(yīng)表里查找信息和處理信息處理信息處理,每個(gè)詞位,然后轉(zhuǎn)換為標(biāo)字符串資訊處理資訊處理。資訊處理值得注意的是,信息資訊信息和資訊信息資訊在拼字上是不對(duì)應(yīng)的;就是說(shuō),他們本身是不同的詞位,而不只是同一個(gè)詞位的拼字變體。這和美式英語(yǔ)的“汽油”(gasoline)及英式英語(yǔ)的“汽油”(petrol)之間的差別是類似的。另一方面,處理和處理處理之間的區(qū)別和美式英語(yǔ)的“顏色”(color)和英式英語(yǔ)的“顏色”(colour)處理處理相似,是同一個(gè)詞位的拼字變體。一定不能太刻板地理解這個(gè)與英語(yǔ)的類比,因?yàn)橛⒄Z(yǔ)和中文書面系統(tǒng)是根本不同的。詞對(duì)轉(zhuǎn)換和字對(duì)轉(zhuǎn)換有類似之處,但在兩個(gè)方面有重要的區(qū)別:

-9-

1.對(duì)應(yīng)表必須把一個(gè)詞位在語(yǔ)義一級(jí)上對(duì)應(yīng)到另一個(gè)。比如,簡(jiǎn)體計(jì)算機(jī)計(jì)算機(jī)必須被對(duì)應(yīng)計(jì)算機(jī)到它的繁體的詞位的同義詞電腦不是它拼字的對(duì)應(yīng)詞計(jì)算機(jī)電腦,計(jì)算機(jī)。電腦計(jì)算機(jī)2.分詞的算法必須復(fù)雜到可以確認(rèn)專有名詞的地步,因?yàn)闃?biāo)字的選擇有可能取決于某詞位是否是專有名詞(見(jiàn)下2.3.3節(jié))。下面是一個(gè)詞位對(duì)應(yīng)的例表。

表8:詞位對(duì)應(yīng)表

英語(yǔ)BitByteCD-ROMComputerDatabaseFileInformationInternetSoftwareWeek簡(jiǎn)體詞位簡(jiǎn)體拼音wèizìjiéguāngpánJìsuànjīShùjùkùWénjiànXìnxīYīntèw?ngRu?njiànxīngqī繁體詞位繁體拼音wèiyuánwèiyuánz?guāngdiédiànn?ozīliàokùdàng’ànzīxùnw?ngjì-w?nglùru?nt?l?baì

位字節(jié)光盤計(jì)算機(jī)數(shù)據(jù)庫(kù)文件信息因特網(wǎng)軟件星期

位元位元組光碟電腦資料庫(kù)檔案資訊網(wǎng)際網(wǎng)路軟體禮拜

可以看到,上表把一種中文詞位的語(yǔ)義的內(nèi)容對(duì)應(yīng)到另一種,在這方面與雙語(yǔ)詞匯的結(jié)構(gòu)是一樣的。

2.3.3專有名詞

詞對(duì)轉(zhuǎn)換的另一個(gè)方面是對(duì)專有名詞的處理。專有名詞簡(jiǎn)繁互換在分詞過(guò)程和編纂對(duì)應(yīng)表時(shí)都造成特殊的問(wèn)題。一個(gè)主要的困難是許多非中文的(甚至一些中文的)專有名詞在拼字上不對(duì)應(yīng)。在這種情況下,碼對(duì)轉(zhuǎn)換程序和字對(duì)轉(zhuǎn)換程序都會(huì)不可避免地產(chǎn)生錯(cuò)誤的結(jié)果。轉(zhuǎn)換專有名詞時(shí)的主要問(wèn)題有:1.分詞分詞:分詞的算法必須復(fù)雜到可以確認(rèn)專有名詞的地步,因?yàn)闃?biāo)字的選擇有可能取分詞決于某詞位是否是專有名詞。2.非中文名字非中文名字:在有些非中文的專有名詞里,簡(jiǎn)體和繁體中文用字不同。例如,簡(jiǎn)體非中文名字的肯尼迪“Kennedy”肯尼迪是的音譯,與繁體的甘迺迪甘迺迪對(duì)應(yīng)。注意肯和尼與甘和迺不對(duì)應(yīng)??夏岬细兽暤峡夏岣兽?.二維對(duì)應(yīng)二維對(duì)應(yīng):有時(shí)一個(gè)源必須沿著二維對(duì)應(yīng)到標(biāo):普通的詞匯和專有名詞。例如,簡(jiǎn)二維對(duì)應(yīng)體周在一般詞里對(duì)應(yīng)到繁體的周或週(甚至賙),但在人名中只對(duì)應(yīng)到周。周周週賙周下面是拼字上不對(duì)應(yīng)的非中文名字的對(duì)應(yīng)例表。

表9:非中文名字的詞位對(duì)應(yīng)表

英語(yǔ)簡(jiǎn)體源正確繁體

-10-

錯(cuò)誤繁體

BerlinWallChadGeorgiaKennedyWisconsin

柏林墻乍得佐治亞肯尼迪威士康星

柏林圍牆查德喬治亞甘迺迪威士康辛

柏林牆乍得佐治亞肯尼迪威士康星

這種例子還有很多。這些區(qū)別不僅本身非常有趣,還有實(shí)際意義的后果。就是說(shuō),忽視它們的碼對(duì)和字對(duì)轉(zhuǎn)換程序會(huì)產(chǎn)生上面“錯(cuò)誤繁體”一欄里列出的不令人滿意的結(jié)果。下面是如上(3)條里解釋的二維對(duì)應(yīng)的例子:

表10:二維對(duì)應(yīng)10:

簡(jiǎn)體源拼音zhōufācái繁體(人名)繁體(人名)繁體(繁體(詞)

周發(fā)才

周發(fā)才

周週賙發(fā)髮才纔

這意味著簡(jiǎn)體的發(fā)作人名時(shí)必須總被轉(zhuǎn)換為繁體的發(fā),不可被轉(zhuǎn)換為繁體的髮。這是相當(dāng)發(fā)發(fā)髮困難的,因?yàn)榉衷~程序必須復(fù)雜到可以區(qū)分作詞用和作專有名詞用的字。這是一個(gè)復(fù)雜的問(wèn)題,本身就值得寫一篇文章來(lái)論述。

2.4語(yǔ)境轉(zhuǎn)換

2.4.1基本概念

簡(jiǎn)繁互轉(zhuǎn)的最高級(jí)可以被形容為詞到詞,語(yǔ)境基礎(chǔ)上的翻譯。我們稱此為語(yǔ)境轉(zhuǎn)換語(yǔ)境轉(zhuǎn)換,因?yàn)楸卣Z(yǔ)境轉(zhuǎn)換須分析語(yǔ)義和句法的語(yǔ)境才能正確地把語(yǔ)義不清、一詞多義的詞位對(duì)應(yīng)到多個(gè)標(biāo)詞位。我們已經(jīng)看到,字對(duì)轉(zhuǎn)換程序和碼對(duì)轉(zhuǎn)換程序比起來(lái)的一大好處是它們處理詞的單位,而不是單個(gè)碼點(diǎn)。這樣,簡(jiǎn)體的特征特征就被正確地轉(zhuǎn)化為繁體的特徵特徵(而不是錯(cuò)誤的特征特征)。與此類特征特徵特征似,詞對(duì)轉(zhuǎn)換程序處理詞位。例如,簡(jiǎn)體光盤光盤被轉(zhuǎn)換為詞位對(duì)應(yīng)的繁體光碟不是和它拼字光碟,光盤光碟相應(yīng)但是錯(cuò)誤的光盤。光在大多數(shù)情況下這是有效的,但有些特殊情況下一詞多義的簡(jiǎn)體詞位對(duì)應(yīng)到多個(gè)繁體詞位,取決于語(yǔ)境,每一個(gè)都有可能是對(duì)的。我們把這些稱為語(yǔ)義不清的多字體復(fù)合詞語(yǔ)義不清的多字體復(fù)合詞。語(yǔ)義不清的多字體復(fù)合詞一詞多義的簡(jiǎn)體復(fù)合詞一對(duì)多的對(duì)應(yīng)在拼字和詞位級(jí)上都會(huì)出現(xiàn)。簡(jiǎn)體文件文件是個(gè)合適的例文件子。作“文件”一義時(shí),它與自己對(duì)應(yīng),也就是繁體的文件文件;但作“數(shù)據(jù)檔案”時(shí),它與繁文件體的檔案檔案對(duì)應(yīng)。這種情況也可能發(fā)生在繁簡(jiǎn)轉(zhuǎn)換的時(shí)候.比如,繁體資料資料與簡(jiǎn)體資料資料作“材檔案資料資料料,方法”時(shí)對(duì)應(yīng),但在作“數(shù)據(jù)”時(shí)和簡(jiǎn)體的數(shù)據(jù)數(shù)據(jù)對(duì)應(yīng)。數(shù)據(jù)

2.4.2轉(zhuǎn)換過(guò)程

據(jù)我們所知,能自動(dòng)轉(zhuǎn)換語(yǔ)義不清的多字體復(fù)合詞的轉(zhuǎn)換程序還不存在。這需要類似于雙語(yǔ)機(jī)器翻譯使用的高級(jí)技術(shù)。這樣的系統(tǒng)通??梢园盐谋玖鞣纸獬稍~組,確認(rèn)它們的句法功能,把詞組分詞為詞位,確認(rèn)它們的詞類,并進(jìn)行語(yǔ)義分析以確定使用語(yǔ)義不清的多字體復(fù)合詞

-11-

的特別意義。日中韓辭典研究所現(xiàn)正在發(fā)展一個(gè)能部分解決這一難題的“偽語(yǔ)境的”轉(zhuǎn)換系統(tǒng)。它不做句法和語(yǔ)義的分析,但通過(guò)一個(gè)允許用戶起交互作用的半自動(dòng)過(guò)程來(lái)達(dá)到高準(zhǔn)確度。為了達(dá)到這一目標(biāo)我們正在:1.為語(yǔ)義不清的多字體復(fù)合詞建立一個(gè)一對(duì)多的數(shù)據(jù)庫(kù)。2.發(fā)展一個(gè)用戶界面,以使用戶從候選項(xiàng)的表中手動(dòng)選擇。以下是為拼字和詞位級(jí)上語(yǔ)義不清的多字體復(fù)合詞設(shè)立的對(duì)應(yīng)例表。

表11:語(yǔ)義不清的多字體復(fù)合詞11:

簡(jiǎn)體源繁體選項(xiàng)1繁體選項(xiàng)2

編制制作白干陰干文件

編制制作白幹陰乾檔案

organize;establishcreation(musicetc.)doinvainletpicklesdry(data)file

編製製作白干陰干文件

makebyknittingmanufacturestrongliquorevennumbersdocument

2.4.3最高級(jí)的轉(zhuǎn)換程序

我們的最終目的是發(fā)展一個(gè)能達(dá)到近乎完美的轉(zhuǎn)換準(zhǔn)確性的語(yǔ)境轉(zhuǎn)換程序。這樣的轉(zhuǎn)換程序至少要能做到以下幾點(diǎn):1.在句法和語(yǔ)義的基礎(chǔ)上進(jìn)行復(fù)雜的分段。2.確認(rèn)專有名詞和其它語(yǔ)態(tài)。3.包括全面的,建立在頻率基礎(chǔ)上的一對(duì)多的編碼對(duì)應(yīng)表。4.包括全面的拼字的和詞位的一對(duì)多對(duì)應(yīng)表。5.包括全面的二維的一對(duì)多的專有名詞的對(duì)應(yīng)表。6.自動(dòng)轉(zhuǎn)換多字體的詞位,包括語(yǔ)義不清的多字體復(fù)合詞。7.用批處理方式或與用戶互動(dòng)的方式操作。下面的簡(jiǎn)體句無(wú)疑會(huì)使甚至最復(fù)雜的轉(zhuǎn)換程序感到困惑:

發(fā)!請(qǐng)發(fā)這封傳真可以嗎?發(fā)點(diǎn)了點(diǎn)頭發(fā)了傳真。

Hey,Fa!Couldyoupleasesendthisfax?Fanoddedhisheadandsentthefax.今天最先進(jìn)的轉(zhuǎn)換程序最好也只能做到:

發(fā)!請(qǐng)發(fā)這封傳真可以嗎?發(fā)點(diǎn)了點(diǎn)頭髮了傳真。

說(shuō)中文的人會(huì)感到好笑。轉(zhuǎn)換程序把簡(jiǎn)體的獨(dú)立詞頭和發(fā)和復(fù)合詞頭發(fā)頭發(fā)混淆起來(lái)了。理想的頭發(fā)頭發(fā)

-12-

語(yǔ)境轉(zhuǎn)換程序應(yīng)該能認(rèn)出偶然相鄰的獨(dú)立詞,并能產(chǎn)生正確的結(jié)果:

發(fā)!請(qǐng)發(fā)這封傳真可以嗎?發(fā)點(diǎn)了點(diǎn)頭發(fā)了傳真。

有諷刺意味的是,因?yàn)橐粋€(gè)簡(jiǎn)單化的碼對(duì)轉(zhuǎn)換程序無(wú)法辨識(shí)詞的單位,正它也許能在這個(gè)情況里給出正確的結(jié)果,但卻是因?yàn)殄e(cuò)誤的原因!應(yīng)該承認(rèn)的是,這個(gè)例子很復(fù)雜。但是它是一個(gè)很自然的中文句子,清楚地證明了中文簡(jiǎn)繁轉(zhuǎn)換的常見(jiàn)錯(cuò)誤和復(fù)雜情況。

3.討論和分析

3.1簡(jiǎn)繁轉(zhuǎn)換的樣本

下列是一個(gè)簡(jiǎn)繁詞位(三級(jí))的轉(zhuǎn)換。

普通話簡(jiǎn)體字

根據(jù)《計(jì)算機(jī)周報(bào)》的報(bào)道,佐治亞軟件研究所所長(zhǎng)威廉肯尼迪氏和廣東大學(xué)的信息處理研究所所長(zhǎng)周東豐教授在香港舉辦了關(guān)于“因特網(wǎng)的現(xiàn)狀”及“信息高速公路的未來(lái)”的發(fā)表會(huì),并且對(duì)于明年兩研究所將合并開(kāi)發(fā)的因特網(wǎng)信息數(shù)據(jù)庫(kù)進(jìn)行了討論。

臺(tái)灣的國(guó)語(yǔ)繁體字

根據(jù)《計(jì)算機(jī)週報(bào)》的報(bào)導(dǎo),喬治亞軟體研究所所長(zhǎng)威廉甘迺迪氏和廣東大學(xué)的資訊處理研究所所長(zhǎng)周東豐教授在香港舉辦了關(guān)於“網(wǎng)際網(wǎng)路的現(xiàn)狀”及“資訊高速公路的未來(lái)”的發(fā)表會(huì),並且對(duì)於明年兩研究所將合併開(kāi)發(fā)的網(wǎng)際網(wǎng)路資訊資料庫(kù)進(jìn)行了討論。

英文譯文AccordingtotheComputerWeekly,thedirectoroftheGeorgiaSoftwareResearchInstituteWilliamKennedy,andthedirectorofCantonUniversity'sInformationProcessingInstituteProfessorDongfengZhou,heldapressconferenceinHongKongonthetopics“TheInternetToday”and“TheFutureoftheInformationSuperhighway.”Theyalsodiscussedtheplansofbothinstitutestobuilda“DatabaseofInternetInformation.”

上面一段是繁簡(jiǎn)詞對(duì)轉(zhuǎn)換的例子。它有幾個(gè)有趣的特點(diǎn),證明達(dá)到近乎完美的轉(zhuǎn)換必須克服的主要挑戰(zhàn)。下面我們來(lái)研究與前三級(jí)每級(jí)轉(zhuǎn)換過(guò)程相關(guān)的問(wèn)題。

3.2碼對(duì)轉(zhuǎn)換問(wèn)題

讓我們先考慮一下如果用普通碼對(duì)轉(zhuǎn)換程序轉(zhuǎn)換以上段落會(huì)出現(xiàn)什么情況。我們使用了某中國(guó)大學(xué)發(fā)展的很受歡迎的文字處理程序,得到了以下(很不令人滿意的)結(jié)果:

根據(jù)《[計(jì)算機(jī)]{周報(bào)}》的[報(bào)道],[佐治亜][軟件]研究所所長(zhǎng)威廉[肯尼迪]氏和廣東大學(xué)的[信息]處理研究所所長(zhǎng)周{東豐}教授在香港舉

-13-

辦了{(lán)關(guān)于}“[因特網(wǎng)]的現(xiàn)狀”及“[信息]高速公路的未來(lái)”的發(fā)表會(huì),{并且}{對(duì)于}明年兩研究所將{合并}開(kāi)發(fā)的[因特網(wǎng)][信息][數(shù)據(jù)庫(kù)]進(jìn)行了討論。

上面這段簡(jiǎn)短的文字包括六個(gè)在括號(hào)里的拼字錯(cuò)誤,和11個(gè)方括號(hào)里出現(xiàn)的詞位錯(cuò)誤。105個(gè)字里有29個(gè),即百分之28,被轉(zhuǎn)換錯(cuò)了。它在轉(zhuǎn)換所有詞位時(shí)都出現(xiàn)了錯(cuò)誤?,F(xiàn)在我們先忽略詞位錯(cuò)誤(比如把計(jì)算機(jī)計(jì)算機(jī)轉(zhuǎn)換成計(jì)算機(jī)計(jì)算機(jī))。下表展示了拼字錯(cuò)誤(“繁體結(jié)計(jì)算機(jī)計(jì)算機(jī)果”),正確的繁體對(duì)應(yīng)和其它的候選項(xiàng)。

表12:簡(jiǎn)繁轉(zhuǎn)換結(jié)果12:

簡(jiǎn)體源繁體結(jié)果正確的繁體正確是是是是是否否否否否否其它候選項(xiàng)

所長(zhǎng)大學(xué)香港未來(lái)發(fā)表東豐周報(bào)并且合并關(guān)于對(duì)于

所長(zhǎng)大學(xué)香港未來(lái)發(fā)表東豐周報(bào)并且合并關(guān)于對(duì)于

所長(zhǎng)大學(xué)香港未來(lái)發(fā)表東豐週報(bào)並且合併關(guān)於對(duì)於

發(fā)表東豐周報(bào)併且合并關(guān)于對(duì)于

髮表發(fā)錶髮錶賙報(bào)并且合並

只對(duì)應(yīng)到一個(gè)繁體字的簡(jiǎn)體字組成的復(fù)合詞只有一個(gè)繁體候選項(xiàng),所以轉(zhuǎn)換的準(zhǔn)確率達(dá)到百分之百。有些包括多字體字的復(fù)合詞,例如簡(jiǎn)體發(fā)(與繁體的發(fā)和髮對(duì)應(yīng)),有時(shí)被正確地轉(zhuǎn)發(fā)發(fā)髮換過(guò)來(lái),比如從發(fā)表發(fā)表發(fā)表到發(fā)表發(fā)表發(fā)表。但在其它情況下,例如簡(jiǎn)體周(與繁體周,週和賙對(duì)應(yīng)),它們周周週賙經(jīng)常不能被正確地轉(zhuǎn)換,正如把周報(bào)周報(bào)轉(zhuǎn)換為周報(bào)周報(bào),還有在其它的五個(gè)例子里也是這樣。周報(bào)周報(bào)上述分析證明了碼對(duì)轉(zhuǎn)換是多么不可靠。

3.3字對(duì)轉(zhuǎn)換問(wèn)題

沒(méi)有正確地轉(zhuǎn)換簡(jiǎn)體的周報(bào)并且周報(bào),分詞程周報(bào)并且和其它詞的問(wèn)題可以通過(guò)使用二級(jí)字對(duì)轉(zhuǎn)換解決。序認(rèn)出這些復(fù)合詞是詞的單位,在拼字對(duì)應(yīng)表里查找它們,然后明確地把它們轉(zhuǎn)化為正確的繁體對(duì)應(yīng)。下面是一個(gè)在拼字一級(jí)上把簡(jiǎn)體詞的單位對(duì)應(yīng)到繁體詞的單位的例表。

-14-

表13:拼字對(duì)應(yīng)13:

簡(jiǎn)體源繁體標(biāo)拼音DàxuéJ?bànSu?zh?ngCh?l?DōngfēngZhōubàoBìngqi?HébìngGuānyúDuìyú英語(yǔ)UniversityConduct,holdChiefProcessingDonfgeng(aname)weeklypublicationMoreoverMergeabout,concerningRegarding

大學(xué)舉辦所長(zhǎng)處理東豐周報(bào)并且合并關(guān)于對(duì)于

大學(xué)舉辦所長(zhǎng)處理東豐週報(bào)並且合併關(guān)於對(duì)於

使用這種表保證了在詞的單位一級(jí)上正確的轉(zhuǎn)換,也避免了一對(duì)一碼對(duì)轉(zhuǎn)換程序內(nèi)在的問(wèn)題。

3.4詞對(duì)轉(zhuǎn)換問(wèn)題

我們已經(jīng)看到,碼對(duì)和字對(duì)轉(zhuǎn)換程序不能處理簡(jiǎn)體計(jì)算機(jī)計(jì)算機(jī)和繁體電腦電腦這樣的詞位區(qū)別,因?yàn)橛?jì)算機(jī)電腦同樣的概念有不同的詞位。還有許多非中文的專有名詞在音譯時(shí)用字不同。例如,簡(jiǎn)體的佐佐治亞,是“Georgia”的音譯,應(yīng)該對(duì)應(yīng)到繁體的喬治亞喬治亞,而不是它的拼字對(duì)應(yīng)佐治亞佐治亞。治亞喬治亞佐治亞如下表“正確”一欄所示,所有簡(jiǎn)體和繁體拼字不對(duì)應(yīng)的詞位和專有名詞都沒(méi)能被正確地轉(zhuǎn)換。

表14:詞位對(duì)應(yīng)14:

英語(yǔ)Computer簡(jiǎn)體詞位簡(jiǎn)體拼音JìsuànjīShùjùkùZu?zhìyàxīnxīyīntèw?ngk?nnídíbàodàoru?njiàn繁體詞位繁體拼音diànn?ozīliàokùqiáozhìyàzīxùnw?ngjì-w?nglùgānn?idíbàod?oru?nt?正確否否否否否否否否

計(jì)算機(jī)Database數(shù)據(jù)庫(kù)Georgia佐治亞Information信息Internet因特網(wǎng)Kennedy肯尼迪Report報(bào)道Software軟件

電腦資料庫(kù)喬治亞資訊網(wǎng)際網(wǎng)路甘迺迪報(bào)導(dǎo)軟體

上述分析表明使用詞位對(duì)應(yīng)表對(duì)達(dá)到轉(zhuǎn)換的高準(zhǔn)確度是至關(guān)重要的。

-15-

3.5繁簡(jiǎn)轉(zhuǎn)換

一對(duì)多的對(duì)應(yīng)問(wèn)題并不局限于簡(jiǎn)繁轉(zhuǎn)換。實(shí)際上,大多數(shù)簡(jiǎn)繁轉(zhuǎn)換中遇到的困難在繁簡(jiǎn)轉(zhuǎn)換中也存在。但是,拼字一級(jí)上一對(duì)多的對(duì)應(yīng)在繁簡(jiǎn)轉(zhuǎn)換中要少得多。盡管如此,我們找到了數(shù)十個(gè)對(duì)應(yīng)到兩個(gè)簡(jiǎn)體字的繁體字,如下表所示。

表15:繁簡(jiǎn)一對(duì)多對(duì)應(yīng)15:

繁體源簡(jiǎn)體標(biāo)意義Particle簡(jiǎn)體例子

著著乾乾徵徵於於

zhezhùgānqiánzhēngzh?yúyú

著著干乾征徵于於

沿著Writings著作Dry干燥Male乾坤goonjourney長(zhǎng)征Ancientnote宮商角徵羽at,in關(guān)于Yu(asurname)於先生

有些字,例如繁體的著對(duì)應(yīng)到簡(jiǎn)體的著和著,頻繁出現(xiàn)在數(shù)以百計(jì)的復(fù)合詞里,所以繁簡(jiǎn)著著著轉(zhuǎn)換不象開(kāi)始看上去那么無(wú)足輕重。值得指出的是,繁簡(jiǎn)對(duì)應(yīng)不總是可逆的。比如,簡(jiǎn)體的后對(duì)應(yīng)到繁體的後和繁體的后,而后後后繁體的姓後只與簡(jiǎn)體的後對(duì)應(yīng)。這意味著簡(jiǎn)繁對(duì)應(yīng)表必須和繁簡(jiǎn)對(duì)應(yīng)表分開(kāi)保持。後後

問(wèn)題到底有多嚴(yán)重多嚴(yán)重?3.6問(wèn)題到底有多嚴(yán)重?

問(wèn)題的程度到底是怎樣的?讓我們看看統(tǒng)計(jì)數(shù)字。幾個(gè)調(diào)查(例如[Xiandai1986])證明最常用的2000個(gè)簡(jiǎn)體字占當(dāng)代簡(jiǎn)體素材中出現(xiàn)的所有字的百分之97。其中,有238個(gè)簡(jiǎn)體字(幾乎百分之12)是多字體的;就是說(shuō),它們與兩個(gè)或多個(gè)繁體字對(duì)應(yīng)。這個(gè)百分比是相當(dāng)大的,也是簡(jiǎn)繁準(zhǔn)確轉(zhuǎn)換的主要困難之一。在另一個(gè)方向的繁簡(jiǎn)轉(zhuǎn)換,問(wèn)題的程度要小得多,但我們發(fā)現(xiàn),基于1億7千萬(wàn)的繁體字素材(Huang1994)上最常用的2000個(gè)大五碼字中有20個(gè)與多個(gè)簡(jiǎn)體字對(duì)應(yīng)。但這些數(shù)字只表現(xiàn)了問(wèn)題的一面,因?yàn)樗鼈兪墙⒃趩巫值幕A(chǔ)上的。要正確地體會(huì)問(wèn)題的嚴(yán)重性,我們必須研究所有包括多字體字的詞的單位。在我們現(xiàn)有的,簡(jiǎn)繁體各有100多萬(wàn)字條的全面的中文詞匯數(shù)據(jù)庫(kù)基礎(chǔ)上[Halpern1994,1998],據(jù)初步計(jì)算表明,大約97000個(gè)最常用的簡(jiǎn)體詞的單位中有20000多有至少一個(gè)多字體的字,導(dǎo)致了一對(duì)多的簡(jiǎn)繁對(duì)應(yīng)。這一比率達(dá)到了驚人的百分之21。類似的繁簡(jiǎn)對(duì)應(yīng)的計(jì)算在大約87000個(gè)最常用的繁體詞的單位中產(chǎn)生了3025個(gè)多字體的字,占全體的百分之3.5。這些數(shù)字證明僅僅從一個(gè)碼點(diǎn)轉(zhuǎn)換到另一個(gè)碼點(diǎn),尤其是簡(jiǎn)繁的方向,會(huì)導(dǎo)致不令人滿意的結(jié)果。

-16-

由于許多高頻率的多字體字是數(shù)以百計(jì),甚至數(shù)以千計(jì)的復(fù)合詞的組成部分,錯(cuò)誤的轉(zhuǎn)換會(huì)經(jīng)常出現(xiàn),除非一對(duì)多對(duì)應(yīng)能(1)把字節(jié)串分詞為語(yǔ)義上有意義的單位(詞的單位或詞位),(2)分析語(yǔ)境以決定幾個(gè)候選項(xiàng)中的正確選擇,使意義明白無(wú)誤。

4.轉(zhuǎn)換的新技術(shù)

4.1項(xiàng)目概述

1996年,以日中韓計(jì)算辭書學(xué)[Halpern1994,1998]為專攻的日中韓辭典研究所日中韓辭典研究所,著手發(fā)展日中韓辭典研究所了一個(gè)中文簡(jiǎn)繁體轉(zhuǎn)換系統(tǒng).其最終目的是為了能得到近乎完美的轉(zhuǎn)換結(jié)果。這是一項(xiàng)重大舉措,需要投入大量的人力,物力。為了達(dá)到這一目的,我們進(jìn)行了以下研究和發(fā)展活動(dòng):1.深入研究所有和中文簡(jiǎn)繁轉(zhuǎn)換有關(guān)的技術(shù)和語(yǔ)言問(wèn)題。2.為前三級(jí)建立了簡(jiǎn)繁相互對(duì)應(yīng)表。3.展了中文分詞技術(shù)。為了達(dá)到轉(zhuǎn)換的高準(zhǔn)確度,我們的對(duì)應(yīng)表很全面,包括大約100萬(wàn)以上普通詞匯的詞位,技術(shù)術(shù)語(yǔ),和專有名詞。它們還包括一些其它特征,比如拼音讀法,語(yǔ)法信息,語(yǔ)態(tài),和語(yǔ)義分類編碼。

4.2系統(tǒng)組成部分

以下是對(duì)轉(zhuǎn)換系統(tǒng),尤其是我們的對(duì)應(yīng)表的主要組成部分的概述:1.編碼對(duì)應(yīng)表編碼對(duì)應(yīng)表:我們的簡(jiǎn)繁編碼互應(yīng)表非常全面。它們不局限于國(guó)標(biāo)碼和大五碼字符編碼對(duì)應(yīng)表集,而是包括所有Unicode的碼點(diǎn)。在一對(duì)多的情況下,候選項(xiàng)按頻率排列,作為它的基礎(chǔ)的數(shù)據(jù)是從一個(gè)龐大的1億七千萬(wàn)字的素材以及我們繁體字專家組幾年的研究中得出的。例見(jiàn)附錄A。2.字對(duì)對(duì)應(yīng)表為數(shù)以萬(wàn)計(jì)的多字體復(fù)合詞建立準(zhǔn)確的字對(duì)對(duì)應(yīng)表需要很多手工勞動(dòng)。字對(duì)對(duì)應(yīng)表:字對(duì)對(duì)應(yīng)表我們的繁體字專家組檢查和復(fù)查了每個(gè)字。例見(jiàn)附錄B。3.詞對(duì)對(duì)應(yīng)表詞對(duì)對(duì)應(yīng)表:建立準(zhǔn)確的詞位對(duì)應(yīng)表更加困難,因?yàn)楹?jiǎn)體和繁體字之間沒(méi)有詞對(duì)對(duì)詞對(duì)對(duì)應(yīng)表應(yīng),而且(似乎)不存在顯示簡(jiǎn)體繁體區(qū)別的詞典。每個(gè)詞都得單獨(dú)檢查,還要考慮到詞義不清的多字體復(fù)合詞帶來(lái)的額外難題(見(jiàn)2.4.2節(jié))。例見(jiàn)2.3.2節(jié)。4.專有名詞對(duì)應(yīng)表:專有名詞,特別是人名和地名,都經(jīng)過(guò)了特殊處理。我們的中文專有名詞對(duì)應(yīng)表專有名詞對(duì)應(yīng)表和非中文的對(duì)應(yīng)表現(xiàn)有約180萬(wàn)個(gè)專有名詞。與詞位表不同的是,這些表由于需要二維對(duì)應(yīng)而特別的復(fù)雜。細(xì)節(jié)及例子見(jiàn)2.3.3節(jié)。5.轉(zhuǎn)換引擎轉(zhuǎn)換引擎:轉(zhuǎn)換引擎的主要構(gòu)成部分有:(1)復(fù)雜的中文分詞程序中文分詞程序,把文本流分詞為轉(zhuǎn)換引擎中文分詞程序

-17-

詞的單位并確認(rèn)它們的語(yǔ)法功能;轉(zhuǎn)換模塊在對(duì)應(yīng)表里查找詞的單位并產(chǎn)生標(biāo)(2)轉(zhuǎn)換模塊轉(zhuǎn)換模塊,的編碼輸出。

4.3結(jié)論

中文簡(jiǎn)繁轉(zhuǎn)換對(duì)地方化、翻譯和出版業(yè),及想要進(jìn)入東亞市場(chǎng)的軟件發(fā)展公司來(lái)說(shuō)都變得日益重要。但是,我們看到問(wèn)題是復(fù)雜的,建立對(duì)應(yīng)表和發(fā)展分詞技術(shù)需要很大努力。日中韓辭典研究所占據(jù)了得天獨(dú)厚的位置,向軟件發(fā)展公司提供高品質(zhì)的中文詞匯資源和可靠的轉(zhuǎn)換技術(shù),消除了昂貴的手工勞動(dòng),顯著地降低了費(fèi)用。我們堅(jiān)信,我們?cè)谶@方面正在進(jìn)行的研究和發(fā)展努力必將使我們接近建立完美的轉(zhuǎn)換程序這一很難達(dá)到的目標(biāo)。

鳴謝

對(duì)以下閱覽了此文并提供了建設(shè)性批評(píng)建議的人士,在此我們表示衷心的感激。按字母表排列,包括:GlennAdams,JamesBreen,CarlHoffman,TimothyHuang,KenLunde,DirkMeyer,錢溯寧,TsuguyaSasaki,DavidWestbrook,andChristianWittern。評(píng)論組的幾位成員都是中日韓信息處理領(lǐng)域的知名權(quán)威。感謝程似錦翻譯本文。同時(shí)特別向詳細(xì)閱覽了此文并提出了許多寶貴建議的GlennAdams和JamesBreen致謝。

參考材料

[Halpern1990]Halpern,Jack(1990):“NewJapanese-EnglishCharacterDictionary:ASemanticApproachtoKanjiLexicography”Euralex'90Proceedings.ActasdelIVCongresoInternacional,157-166.Benalmádena(Málaga):Bibliograf.[Halpern1990]Halpern,Jack(1990):NewJapanese-EnglishCharacterDictionary(SixthPrinting).Tokyo:Kenkyusha.[Halpern1994]Halpern,Jack,NomuraMasaaki,andFukadaAtsushi(1994):“BuildingaComprehensiveChineseCharacterDatabase,”Euralex'94Proceedings.InternationalCongressonLexicographyinAmsterdam.[Halpern1998]Halpern,Jack(1998):“BuildingAComprehensiveDatabasefortheCompilationofIntegratedKanjiDictionariesandTools,”43rdInternationalConferenceofOrientalistsinTokyo.[Halpern1999]Halpern,Jack(1999):TheKodanshaKanjiLearner'sDictionary.Tokyo:KodanshaInternational.[Huang1994]Huang,ShihKun(1994):ChineseUsenetPostings.DepartmentofComputerScienceandInformationEngineering,NationalChiao-TungUniversity,Taiwan(http://./doc/604ba66f58fafab069dc0253.html.tw/).

-18-

[ISO1994]:ISO2022:1994InformationTechnology--CharacterCodeStructureandTechniques.[Lunde1999]Lunde,Ken1999:CJKVInformationProcessing.Sebastopol:O'Reilly&Associates.[Meyer1998]Meyer,Dirk(1998):“DealingWithHongKongSpecificCharacters,”MultilingualComputing&Technology,Vol.9No.3.MultilingualComputing,Inc.[Unicode1996]:TheUnicodeStandard,Version2.0.Reading:Addison-Wesley.`[Xiandai1986]現(xiàn)代漢語(yǔ)頻率詞典xiàndaìhànyupínlücídi?n(1986).Beijing:BeijingLanguageInstitute.[Zongbiao1986]:國(guó)家語(yǔ)言文字工作委員會(huì)(1986):簡(jiǎn)化字總表ji?nhuàzìz?ngbi?o(SecondEdition):語(yǔ)文出版社.

-19-

附錄

附錄A:碼對(duì)轉(zhuǎn)換對(duì)應(yīng)表附錄A

表A-1:簡(jiǎn)繁編碼對(duì)應(yīng)表1:簡(jiǎn)繁編碼對(duì)應(yīng)表

國(guó)標(biāo)碼B0B5B2C5B3D4B5D6B6ACB7E1B8F6C0DBC3B9CAACD5F7DAD6F3BD簡(jiǎn)體源繁體標(biāo)大五碼B774EEEEA47EC5D7A659B3F0A9E8ACBBDBD3A556C35DC2D7A4A5ADB7ADD3BAE7B2D6F5ECBE60C5F0ABCDA472BC78A9BAEBACEEB0F96EF8BE

暗才吃抵冬豐個(gè)累霉尸征謚蠼

暗才吃抵冬豐個(gè)累霉屍徵諡蠼

闇纔喫牴觝鼕豐風(fēng)箇纍黴尸征謚蠷

表A-2:繁簡(jiǎn)編碼對(duì)應(yīng)表

大五碼

AB5DADB7B054B0A2B0AEB16AB3CAB3F2B6C4BAE0BBB1BC78BECABFFD

繁體源

簡(jiǎn)體標(biāo)

國(guó)標(biāo)碼(EUC)國(guó)標(biāo)碼(EUC)

BED6B7E7B7E1D1B6C9C2B8C9C7ACC7BFC9A1CEA7D3B6BCE3BED6D5F7E1E7C7BFC2BC

侷風(fēng)訊陝乾強(qiáng)傘圍傭箋跼徵彊錄

局風(fēng)豐訊陜干乾強(qiáng)傘圍傭箋局征徵強(qiáng)錄

-20-

附錄B附錄B

表B:字對(duì)轉(zhuǎn)換對(duì)應(yīng)表

簡(jiǎn)體源繁體標(biāo)

暗殺暗碼暗里暗昧幽暗霉菌霉雨霉菌特征象征秋征長(zhǎng)征出征累進(jìn)系累豐姿豐韻

暗殺暗碼暗裡闇昧幽闇黴菌霉雨黴菌特徵象徵鞦徵長(zhǎng)征出征累進(jìn)繫纍豐姿風(fēng)韻

-21-

附錄C附錄C

表C:某很受歡迎的轉(zhuǎn)換程序的錯(cuò)誤對(duì)應(yīng)

國(guó)標(biāo)碼(EUC)國(guó)標(biāo)碼(EUC)B7E1C3B4D4C6CAB2B6ACBCB8BACFBAF3B8B4CAACB8C9D5F7B5D6BDDCB4D6B7B6B8B2C3B9簡(jiǎn)體源錯(cuò)誤繁體正確繁體

豐么云什冬幾合后復(fù)尸干征抵杰粗范覆霉

豐么云什冬幾合后復(fù)尸干征抵杰粗范覆霉

豐雲(yún)

複幹

豐麼雲(yún)甚冬幾合後復(fù)屍幹徵抵傑粗范覆霉

豐么云什鼕幾閤后複尸乾征牴杰麤範(fàn)黴

風(fēng)

覆復(fù)干榦觝

-22-

介紹

JACKHALPERN

春遍雀來(lái)

(ハルペンジャック)

株式會(huì)社日中韓辭典研究所所長(zhǎng)漢英字典刊行會(huì)總編日本昭和女子大學(xué)近代文化研究所研究員春遍雀來(lái)于1946年生于德國(guó),在六個(gè)國(guó)家住過(guò),通曉十二國(guó)語(yǔ)言。他在以色列基布茲居住時(shí)對(duì)漢字產(chǎn)生了濃厚的興趣,在1973年到了日本,在十六年間編纂了新漢英字典新漢英字典[Halpern1990]。他是職業(yè)詞典編纂家、作家,經(jīng)常作日新漢英字典本文化方面的演講,在日語(yǔ)國(guó)際演講比賽中奪得過(guò)頭獎(jiǎng),還創(chuàng)建了國(guó)際獨(dú)輪車協(xié)會(huì)。春遍雀來(lái)目前兼任漢英字典刊行會(huì)漢英字典刊行會(huì)(KDPS,一個(gè)專攻編纂漢字字典的非盈利漢英字典刊行會(huì)組織)的總編和日中韓辭典研究所日中韓辭典研究所(CJKI)的所長(zhǎng),專門從事中日韓詞典編纂日中韓辭典研究所業(yè),并發(fā)展了全面的中日韓數(shù)據(jù)庫(kù)(DESK)。他還編寫了世界上第一個(gè)中日韓字符的Unicode字典。下面是春遍雀來(lái)在中日韓詞典編纂領(lǐng)域的主要著作。

Halpern,Jack(1982):“LinguisticAnalysisoftheFunctionofKanjiinModernJapanese,”27thInternational

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論