敢于基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究_第1頁(yè)
敢于基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究_第2頁(yè)
敢于基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究_第3頁(yè)
敢于基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究_第4頁(yè)
敢于基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、低價(jià)出售百度文庫(kù)財(cái)富值帳號(hào) 實(shí)力見(jiàn)證一切 聯(lián)系旺旺 whx0910專(zhuān)業(yè)銷(xiāo)售愛(ài)問(wèn)共享資料積分帳號(hào) 價(jià)格公道合理 聯(lián)系QQ1747-88632基于中間轉(zhuǎn)換格式的中英文語(yǔ)言生成方法研究曹文潔宗成慶徐波中國(guó)科學(xué)院自動(dòng)化所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100080,中國(guó)caowj, cqzong, 2003年12月5日收稿2004年5月10日修改并錄用_摘要基于中間語(yǔ)言的翻譯方法是實(shí)現(xiàn)多語(yǔ)言口語(yǔ)翻譯的重要途徑,而自然語(yǔ)言生成技術(shù)則是基于中間語(yǔ)言的機(jī)器翻譯系統(tǒng)中的重要組成部分。本文介紹我們基于中間語(yǔ)言的中英文語(yǔ)言生成方面的研究工作。我們采用的是基于特征的深層生成技術(shù)與模板生成技術(shù)相結(jié)合的生成方法。其中,深

2、層生成技術(shù)主要是為了保證口語(yǔ)翻譯系統(tǒng)具有更好的靈活性與領(lǐng)域可移植性,而模板生成技術(shù)則是為了使口語(yǔ)翻譯系統(tǒng)具有更高的效率。在深層生成中,我們采用微觀規(guī)劃和表層生成相結(jié)合的結(jié)構(gòu),使用系統(tǒng)功能語(yǔ)法為生成語(yǔ)法。實(shí)驗(yàn)表明該混合生成策略可以較好地滿足基于中間轉(zhuǎn)換格式的口語(yǔ)翻譯系統(tǒng)的基本要求。關(guān)鍵詞自然語(yǔ)言生成,微觀規(guī)劃,詞匯化,表層生成,中間轉(zhuǎn)換格式,系統(tǒng)功能語(yǔ)法_1引言自然語(yǔ)言生成技術(shù)研究的是如何利用計(jì)算機(jī)把非自然語(yǔ)言表示的語(yǔ)義形式轉(zhuǎn)換成某種自然語(yǔ)言的表示形式,從而產(chǎn)生人們可理解的,表達(dá)確切、自然流暢的自然語(yǔ)言語(yǔ)句。自然語(yǔ)言生成技術(shù)的目的實(shí)際上就是讓人們能夠用自己感到最為舒適方便的自然語(yǔ)言方式去表達(dá)各種

3、語(yǔ)義信息。隨著自然語(yǔ)言處理相關(guān)技術(shù)的快速發(fā)展,自然語(yǔ)言生成技術(shù)被廣泛地應(yīng)用于許多方面,機(jī)器翻譯中的目標(biāo)語(yǔ)言生成是其中最典型的應(yīng)用之一。本文介紹的工作是基于國(guó)際語(yǔ)音翻譯先進(jìn)研究聯(lián)盟(C-STAR: Consortium for Speech Translation Advanced Research) 框架下多語(yǔ)言口語(yǔ)翻譯系統(tǒng)中的中英文生成問(wèn)題,所采用的中間語(yǔ)言稱(chēng)為中間轉(zhuǎn)換格式(IF: Interchange Format)。關(guān)于背景的詳細(xì)介紹,請(qǐng)參見(jiàn)(/),本文不再贅述?;谥虚g轉(zhuǎn)換格式的C-STAR口語(yǔ)翻譯系統(tǒng)框圖如下所示:語(yǔ)音識(shí)別源語(yǔ)解析語(yǔ)音合成知識(shí)

4、庫(kù)目標(biāo)語(yǔ)生成源語(yǔ)文本IF目標(biāo)語(yǔ)文本源語(yǔ)語(yǔ)音目標(biāo)語(yǔ)音圖1. 基于中間轉(zhuǎn)換格式的語(yǔ)音翻譯系統(tǒng)與其它基于中間語(yǔ)言的機(jī)器翻譯系統(tǒng)相同,基于IF的口語(yǔ)翻譯系統(tǒng)對(duì)目標(biāo)語(yǔ)言生成器有著同樣的要求:即要求具有靈活、高效、便于領(lǐng)域移植、以及較好的容錯(cuò)性等特點(diǎn)。除此之外,IF也給我們的目標(biāo)語(yǔ)言生成研究帶來(lái)新的問(wèn)題(詳見(jiàn)第二小節(jié))。自然語(yǔ)言生成從上個(gè)世紀(jì)六十年代開(kāi)始發(fā)展至今,經(jīng)歷了從簡(jiǎn)單到復(fù)雜的過(guò)程。句法實(shí)現(xiàn)系統(tǒng)主要有四種類(lèi)型(John A. Bateman 1996)。首先是固定文本生成系統(tǒng)(canned-text system),這種方法主要應(yīng)用于大多數(shù)的軟件的提示信息生成系統(tǒng)。然后是模板生成系統(tǒng)(templat

5、e system),如Kukich在1983年提出的ANA系統(tǒng),這種方法效率高,而且在特定領(lǐng)域的應(yīng)用效果比較好,但是領(lǐng)域可移植性差。再之后是基于短語(yǔ)的生成系統(tǒng)(phrase-based system),如McDonald等在1980年建立的MUMBLE系統(tǒng),Moore于1989年建立的EES文本規(guī)劃器等。此方法主要用于單句生成,其優(yōu)點(diǎn)是魯棒性強(qiáng),但是容易造成不恰當(dāng)?shù)亩陶Z(yǔ)擴(kuò)展。后來(lái)又出現(xiàn)了基于特征的生成系統(tǒng)(feature-based system),如Matthiessen于1983年建立的PENMAN系統(tǒng),及其衍生出的KPML系統(tǒng)(Bateman,Maier et. al. 1991)等等。

6、這種方法的優(yōu)點(diǎn)在于簡(jiǎn)化了概念,可以把任何語(yǔ)言上的差異作為特征加入到系統(tǒng)中;缺點(diǎn)是效率較低。本文中我們采用的是基于模板和基于特征的深層生成相結(jié)合的混合生成方法。之所以采用這樣的混合方法,主要基于以下幾點(diǎn)考慮:首先,特定領(lǐng)域的口語(yǔ)對(duì)話常常有一些固定的表達(dá)模式。根據(jù)我們初步統(tǒng)計(jì),發(fā)現(xiàn)口語(yǔ)中含有“請(qǐng)”字的祈使句約占17左右;用“有嗎”、“有沒(méi)有”、“能不能/可以不可以”等表示的疑問(wèn)句約占44%左右;含有時(shí)間或數(shù)字的語(yǔ)句約占22左右。 其中,很多固定簡(jiǎn)短的表達(dá)非常適合使用模板的方法進(jìn)行翻譯(對(duì)兩種語(yǔ)言直接互譯的翻譯系統(tǒng)而言)或目標(biāo)語(yǔ)言的生成(對(duì)基于中間語(yǔ)言的翻譯系統(tǒng)而言)以簡(jiǎn)化翻譯模塊。此外,模板的引入

7、有助于提高系統(tǒng)的運(yùn)行效率。其次,由于口語(yǔ)的表達(dá)形式靈活多樣,對(duì)于非固定的表達(dá)方式,采用基于特征的深層生成方法無(wú)疑更能滿足系統(tǒng)對(duì)靈活性的要求(Ehud Reiter 1995)。再次,我們的生成器是中英文的雙語(yǔ)生成,較其它方法而言,基于特征的方法可以把不同語(yǔ)言的差異作為特征加入系統(tǒng)中,使其更易于用統(tǒng)一的程序框架對(duì)不同語(yǔ)言進(jìn)行處理。本文第二部分介紹中間轉(zhuǎn)換格式IF的定義及其特點(diǎn),第三部分具體介紹我們的生成方法,之后是實(shí)驗(yàn)結(jié)果及分析,第四部分為結(jié)束語(yǔ)。2中間轉(zhuǎn)換格式 IF目前C-STAR采用的IF由NESPOLE!計(jì)劃提出,當(dāng)前針對(duì)領(lǐng)域是旅游信息咨詢,包括旅館服務(wù)和病人請(qǐng)求幫助等。一個(gè)IF表達(dá)式通常

8、由說(shuō)話者(speaker)、話語(yǔ)行為(speech act)、概念序列(concepts,與話語(yǔ)行為合稱(chēng)為領(lǐng)域行為)和參數(shù)屬性值對(duì)的列表四部分組成。關(guān)于各部分的具體含義,請(qǐng)參見(jiàn)文獻(xiàn)(解國(guó)棟等 2004)。IF的理論基礎(chǔ)是話語(yǔ)行為理論 (吳華 2000)。話語(yǔ)行為理論的基本思想是認(rèn)為語(yǔ)言不只用來(lái)陳述事實(shí),而是附載著說(shuō)話者的意圖。IF的理論基礎(chǔ)決定IF主要具有以下幾個(gè)特點(diǎn):第一,對(duì)多語(yǔ)對(duì)話翻譯系統(tǒng)而言,如果能準(zhǔn)確捕捉對(duì)話者交際意圖,語(yǔ)句的許多信息就可由此推斷出,從而較基于Fillmore的語(yǔ)義格語(yǔ)法的中間語(yǔ)言而言,IF的定義大大簡(jiǎn)化。第二,由于IF的定義不涉及句子主要參與成分之間的句法和語(yǔ)義關(guān)系,

9、所以與基于格語(yǔ)法的中間語(yǔ)言相比,IF更適合于多語(yǔ)翻譯系統(tǒng),尤其是避免了在不同語(yǔ)言的語(yǔ)義格不一致的情況下出現(xiàn)的問(wèn)題,主要是中心詞失配(head-mismatching)問(wèn)題(Lori Levin, et al. 2003)。第三,IF是一種不完備的語(yǔ)義描述(Underspecified Semantic Representation, 簡(jiǎn)稱(chēng)USR),這需要生成器在生成句子的表面形式之前,先根據(jù)IF和領(lǐng)域知識(shí)推斷缺少的信息。第四,雖然IF會(huì)提供諸如情態(tài)、時(shí)態(tài)和一些修辭關(guān)系等信息,IF表達(dá)式的主體部分描述的是話語(yǔ)的領(lǐng)域行為,并沒(méi)有指出句子所對(duì)應(yīng)的謂詞論元框架。這使得生成器不能直接由IF生成表層句子,

10、而是需要首先由IF主體部分獲得句子的謂詞框架,并把IF映射到適合于句子生成的語(yǔ)義表示形式。相反,IF的arguments列表中每一個(gè)“參數(shù)屬性值對(duì)”都對(duì)句子淺層信息進(jìn)行了很好的描述和封裝,從而這部分無(wú)需中間映射,可以直接進(jìn)行短語(yǔ)的生成。IF示例:(1) c:request-information+departure+transportation (transportation-spec=(flight, identifiability=yes, destination=tokyo), time=(clock=(hours=2)句子: Does the flight to Tokyo leave

11、 at 2 oclock? | 飛往東京的航班 2點(diǎn)鐘離開(kāi)嗎?(2) a:greeting(greeting=hello)句子:Hello. | 你好。3基于模板與特征的混合生成方法根據(jù)前面的介紹,針對(duì)中英文生成技術(shù),我們的研究目標(biāo)是:(1)研究與領(lǐng)域相關(guān)、針對(duì)話語(yǔ)行為描述的中間語(yǔ)言的句子規(guī)劃技術(shù);(2)研究針對(duì)多語(yǔ)口語(yǔ)翻譯的目標(biāo)語(yǔ)言生成策略,目前是針對(duì)漢語(yǔ)和英語(yǔ)的生成問(wèn)題。同時(shí)考慮針對(duì)多語(yǔ)言生成目標(biāo)的模塊可擴(kuò)展性。作為多語(yǔ)口語(yǔ)翻譯系統(tǒng)的一個(gè)有機(jī)組成部分,目標(biāo)語(yǔ)言生成器要求具有靈活、高效的特點(diǎn),魯棒的性能,易于維護(hù)并且易于進(jìn)行領(lǐng)域移植。如圖2所示,我們的目標(biāo)語(yǔ)言生成器主要由兩個(gè)模塊組成:微觀規(guī)

12、劃和表層生成。當(dāng)中間轉(zhuǎn)換格式IF進(jìn)入生成器,首先經(jīng)過(guò)微觀規(guī)劃得到一個(gè)句法功能結(jié)構(gòu),再由這個(gè)句法功能結(jié)構(gòu)通過(guò)表層生成得到目標(biāo)語(yǔ)言句子。我們所用的句法功能結(jié)構(gòu)是基于系統(tǒng)功能語(yǔ)法而定義的,其格式是多個(gè)特征屬性值對(duì)的集合,包含生成一個(gè)句子所必須的各部分信息(語(yǔ)氣、時(shí)態(tài)、語(yǔ)態(tài)、謂詞框架等)。表層生成部分則相應(yīng)的采用功能合一文法,利用目標(biāo)語(yǔ)言的句法知識(shí),把作為過(guò)渡的句法功能結(jié)構(gòu)中的各個(gè)特征逐步聚合,最終線性化得到目標(biāo)語(yǔ)句。圖2. 目標(biāo)語(yǔ)言生成器系統(tǒng)框圖為滿足口語(yǔ)翻譯系統(tǒng)的效率與靈活性的要求,并使其易于進(jìn)行領(lǐng)域移植,我們的生成器采用模板與深層生成相結(jié)合的生成策略。模板方法的效率很高,可是領(lǐng)域移植性比較差,而

13、深層生成的方法則更為靈活,并具有更好的通用性,可是時(shí)效性差(Stephan Busemann and Helmut Horacek 1998)。二者結(jié)合起來(lái),可以很好地起到相互取長(zhǎng)補(bǔ)短的作用。由于IF是一種不完備的語(yǔ)義表示,而且源語(yǔ)言語(yǔ)音識(shí)別和理解模塊往往存在錯(cuò)誤而造成IF錯(cuò)誤或信息丟失,為了迎合生成器對(duì)于魯棒性的要求,在輸入IF錯(cuò)誤或不完整的情況下能夠生成盡量正確和可理解的目標(biāo)語(yǔ)句,我們采取的措施是設(shè)立缺省值,并放松微觀規(guī)劃規(guī)則和語(yǔ)法規(guī)則的約束,在某些情況下也允許生成不完整的句子。3.1 微觀規(guī)劃通常微觀規(guī)劃器包括以下幾個(gè)性質(zhì)完全不同的子任務(wù):(1)將內(nèi)容規(guī)劃對(duì)象映射到語(yǔ)言資源上;(2)確定

14、句子轄域;(3)進(jìn)行句子聚合,把幾個(gè)信息通過(guò)不同的關(guān)系組合成長(zhǎng)句;(4)進(jìn)行句子的縮合,消除冗余,使語(yǔ)句精煉;(5)進(jìn)行詞匯選擇,把領(lǐng)域概念和關(guān)系轉(zhuǎn)化為詞匯和語(yǔ)法關(guān)系;(6)生成指代。但在我們的口語(yǔ)翻譯系統(tǒng)中,IF中的信息全部來(lái)自源語(yǔ)句子,而且一個(gè)IF表達(dá)式與一個(gè)句子或詞組相對(duì)應(yīng),生成句子所必需的各項(xiàng)淺層信息都在IF的參數(shù)中給出,所以生成器所要做的事情就是根據(jù)IF以及領(lǐng)域知識(shí)生成目標(biāo)語(yǔ)言語(yǔ)句,而無(wú)需進(jìn)行句子的內(nèi)容確定。IF沒(méi)有提供句子生成所需的謂詞論元信息,需要生成器由IF、領(lǐng)域知識(shí)和中心詞的搭配信息進(jìn)行推斷。由此決定我們的微觀規(guī)劃器需要實(shí)現(xiàn)如下幾個(gè)功能:(1)根據(jù)IF和領(lǐng)域知識(shí)確定句子類(lèi)型,

15、獲得句子生成所必須的謂詞論元框架;(2)把領(lǐng)域概念轉(zhuǎn)化為詞匯,進(jìn)行詞匯選擇,并從詞典中獲得所有與詞匯相關(guān)的詞形變化(英文生成中的人稱(chēng)與數(shù)的變化等)、詞語(yǔ)搭配等信息;(3)把領(lǐng)域關(guān)系轉(zhuǎn)化為語(yǔ)法關(guān)系;(4)獲得句子的語(yǔ)氣、時(shí)態(tài)、情態(tài)、語(yǔ)態(tài)等信息。如圖3所示,微觀規(guī)劃分為兩個(gè)層次:句子規(guī)劃和短語(yǔ)規(guī)劃。句子規(guī)劃的功能主要是根據(jù)IF表達(dá)式和領(lǐng)域知識(shí)推斷句子的頂層信息,如主要?jiǎng)釉~、時(shí)態(tài)、語(yǔ)態(tài),語(yǔ)氣等等,并根據(jù)主要?jiǎng)釉~獲得生成句子所必須的謂詞論元框架;短語(yǔ)規(guī)劃是把IF格式中的屬性和概念轉(zhuǎn)換為句子的參與角色,換言之,就是獲得句子的淺層短語(yǔ)信息。通過(guò)句子規(guī)劃和短語(yǔ)規(guī)劃能夠把IF格式轉(zhuǎn)換為句子的語(yǔ)義句法特征集,直

16、接作為目標(biāo)語(yǔ)言表層生成器的輸入。微觀規(guī)劃所涉及的資源主要是句子及短語(yǔ)規(guī)劃規(guī)則庫(kù)、領(lǐng)域知識(shí)和詞典。其中,領(lǐng)域知識(shí)沒(méi)有作為獨(dú)立的實(shí)體出現(xiàn),而是體現(xiàn)在規(guī)劃規(guī)則的制訂上,我們?cè)谥朴営蒊F到句子功能結(jié)構(gòu)的映射規(guī)則時(shí),根據(jù)說(shuō)話者的角色和IF表達(dá)式的應(yīng)用場(chǎng)景等領(lǐng)域信息的不同添加不同的句法和語(yǔ)義信息,或進(jìn)行不同的映射。圖3. 微觀規(guī)劃流程圖句子規(guī)劃規(guī)則的描述由一個(gè)三元體(P,C,A)實(shí)現(xiàn)。P(Pattern)指的是IF的主體部分(包括說(shuō)話者和領(lǐng)域行為)的模式,C(Constraints)是約束,可以是空集,也可以是對(duì)IF所含Concepts和Arguments的約束。A(Action)是動(dòng)作,所含的內(nèi)容是在輸

17、入的IF滿足P和C的限制下,該IF所對(duì)應(yīng)的句子的功能結(jié)構(gòu)。句子規(guī)劃時(shí),微觀規(guī)劃器輸入的IF首先與P中的模式匹配,如果匹配,再看輸入是否滿足C中的約束,如果兩者都滿足,則執(zhí)行動(dòng)作A,獲得句子的主要?jiǎng)釉~及框架信息。規(guī)則中給出的是主要?jiǎng)釉~的語(yǔ)義,在詞匯化(即查詞典以確定主要?jiǎng)釉~)時(shí),如果存在多個(gè)詞匯的候選,通常由動(dòng)詞所規(guī)定框架中參與成分的語(yǔ)義加以限定。這些信息都放在詞典當(dāng)中。句子規(guī)劃規(guī)則示例: (speaker = a ) ( speech act = give-information ) ( topic = availability + room ); /Pattern(exist(argumen

18、t, room-spec' ); /Constraints( (cat = clause) ( mood = declarative) ( tense = present) (voice = active) (process(type = possessive) (lex =#dic(have) (args = (case = pos) (pos=lex=(#get(argument, 'who')|#dic(we)/“we”為缺省值(bel=lex =( #get (attribute, 'room-spec' ),), (!optional: pre

19、_mod = ( time = #get ( attribute, 'time'); 關(guān)于句子規(guī)劃規(guī)則中各符號(hào)的定義和具體句子規(guī)劃的過(guò)程請(qǐng)參照文獻(xiàn)(吳華 2000)。句子模板的定義也是在句子規(guī)劃層實(shí)現(xiàn)的。在口語(yǔ)限定領(lǐng)域中,許多表達(dá)方式通常是固定的而又領(lǐng)域無(wú)關(guān)的,所不同的只是句子中的某個(gè)或某幾個(gè)成分,如句子的賓語(yǔ),這些成分往往又是領(lǐng)域相關(guān)的,例如:“請(qǐng)給我<香皂>”、“請(qǐng)給我<一份沙拉>”。而這些成分可以通過(guò)語(yǔ)義類(lèi)限定。此外,一些日常用語(yǔ):如感謝、問(wèn)候、道歉等等,表達(dá)方式也是很固定的。這些句子都可以使用句子模板。比較英語(yǔ)和漢語(yǔ),漢語(yǔ)詞匯沒(méi)有形態(tài)的變化,所以

20、某些固定表達(dá)更加適合于模板方法。我們?cè)谀0宓亩x中加入了變量,變量的取值由一個(gè)或數(shù)個(gè)語(yǔ)義類(lèi)限定。語(yǔ)義類(lèi)的定義與IF的Values類(lèi)相一致。通過(guò)模板中加入變量,某些原本表達(dá)方式相對(duì)固定,可是又需要深層生成的句子就可以用模板的方法得到,既保持了一定的靈活性,又進(jìn)一步提高了系統(tǒng)的效率。為便于生成器在統(tǒng)一的程序框架下處理,模板與句子規(guī)劃采用同樣格式的規(guī)則。在生成過(guò)程中,如果某個(gè)模板規(guī)則的模式和約束都匹配,則直接進(jìn)入表層實(shí)現(xiàn),把模板中的變量用相應(yīng)的目標(biāo)語(yǔ)言的短語(yǔ)或詞匯替換即可。下面給出一個(gè)示例。其中,*payment-methods*代表“支付手段”語(yǔ)義類(lèi)。模板示例:(speechact=give-in

21、formation),(topic=payment);/Pattern(exist(method), value(method)*payment-methods*);/Constraints(cat=clause), (process.type=template), (lex=用#dic(%pament)付賬。|By #dic(%pament). );句子規(guī)劃的深一層是短語(yǔ)規(guī)劃。我們最初的漢語(yǔ)生成器(Hua Wu et al. 2000)在微觀規(guī)劃的短語(yǔ)規(guī)劃部分只是獲得了生成各個(gè)短語(yǔ)所需要的成分功能結(jié)構(gòu)信息,而微觀規(guī)劃的結(jié)果是大結(jié)構(gòu)(句子結(jié)構(gòu))嵌套著小結(jié)構(gòu)(短語(yǔ)結(jié)構(gòu))的、可以轉(zhuǎn)化為樹(shù)狀結(jié)構(gòu)的復(fù)

22、雜特征及其屬性值的集合。到表層生成,需要再一次對(duì)短語(yǔ)層進(jìn)行功能合一運(yùn)算以獲得短語(yǔ)的線性結(jié)構(gòu)。這樣做,增大了表層生成時(shí)程序的遞歸深度和次數(shù),大大降低了生成器的運(yùn)行效率。在我們目前的短語(yǔ)規(guī)劃中,IF中的“參數(shù)屬性值”對(duì)應(yīng)于句子的淺層短語(yǔ)結(jié)構(gòu)。短語(yǔ)規(guī)劃主要處理的是IF中的“參數(shù)屬性值”部分,或者是IF中某些概念與該概念的“參數(shù)屬性值”部分的組合。IF在“參數(shù)屬性值”結(jié)構(gòu)中,明確指出了中心詞,和按照語(yǔ)義定義的各個(gè)修飾成分,還包括相關(guān)的語(yǔ)法信息:如名詞的冠詞信息(identifiability)。這種形式已經(jīng)非常有利于短語(yǔ)的生成。本著保證系統(tǒng)運(yùn)行效率,而又盡量使系統(tǒng)簡(jiǎn)化的原則,我們沒(méi)有把IF的“參數(shù)屬性

23、值”轉(zhuǎn)換為另外一套深層語(yǔ)義表示,而是直接使用IF的“參數(shù)屬性值”表示短語(yǔ)的語(yǔ)義信息??墒俏覀儾荒馨堰@些表示保留到表層生成器再進(jìn)行短語(yǔ)的生成,因?yàn)檫@樣會(huì)破壞表層生成器的通用性。所以我們的短語(yǔ)實(shí)現(xiàn)實(shí)際上是在微觀規(guī)劃器的短語(yǔ)規(guī)劃部分實(shí)現(xiàn)的,從這個(gè)意義上說(shuō),這里的短語(yǔ)規(guī)劃稱(chēng)為“短語(yǔ)實(shí)現(xiàn)”更加恰當(dāng)。短語(yǔ)規(guī)則的格式如下:(type=type, name=name);(exist_set=(arg_e_1, arg_e_m,arg_e_n), non-exist_set=(arg_n_1, arg_n_2,arg_n_m);(cat=phrase_type), (c_rule=(left_cons=sem_

24、1, right_cons=sem_2), (#dic(name, %head),( arg_1, arg_2, , arg_i-1, *, arg_i+1, , arg_k), ), (e_rule=(left_cons=Sem_1, right_cons=Sem_2),(#dic(name, %head), (Arg_1, Arg_2, , Arg_i-1, *, Arg_i+1, , Arg_k),),);每條規(guī)則仍是由三元組構(gòu)成。在第一項(xiàng)中,type取值為“argument”或“concept”,表示本條規(guī)則針對(duì)的是一個(gè)argument還是一個(gè)取值為相應(yīng)的arg

25、ument或concept值。第二項(xiàng)是Constrains,由兩個(gè)arguments集合構(gòu)成,限定name所應(yīng)該含有和不該含有的參數(shù)arguments。對(duì)于不在這兩個(gè)集合中的其它可以修飾name的arguments,則為可選項(xiàng)。第三項(xiàng)是在滿足Constrains限制下,相應(yīng)的漢語(yǔ)(c_rule)和英語(yǔ)(e_rule)規(guī)則。其中,“cat”表示詞組類(lèi)型,如np、vp、mp。以c_rule為例,其中的“l(fā)eft_cons”和“right_cons”表示來(lái)自于左右語(yǔ)言成分的語(yǔ)義限制,這主要是為了消除歧義、進(jìn)行詞匯選擇而設(shè)的。后面一項(xiàng)正式給出了短語(yǔ)的形式,“#dic(name, %head)”代表去詞

26、典中查name的中心詞;“head”代表中心詞的語(yǔ)義。后面括號(hào)中的參數(shù)表是順序的,給出的是短語(yǔ)的順序結(jié)構(gòu),“*”號(hào)指示出中心詞所在位置。3.2 表層生成表層生成,又稱(chēng)為句子生成或?qū)崿F(xiàn),是目標(biāo)語(yǔ)言生成器的最后一個(gè)階段,其任務(wù)是利用微觀規(guī)劃的輸出以及語(yǔ)言的語(yǔ)法規(guī)則生成正確、流暢的句子。我們的生成方法采用系統(tǒng)功能語(yǔ)法定義單句層系統(tǒng)功能網(wǎng)絡(luò),具體操作采用功能合一算法。具體地流程可以由下面的框圖表示:圖4.表層生成器框圖系統(tǒng)功能語(yǔ)法(SFG)由Halliday于1985年提出,它綜合了系統(tǒng)和功能的思想,把語(yǔ)言解釋成一種可以進(jìn)行語(yǔ)義選擇的系統(tǒng)網(wǎng)絡(luò)。SFG認(rèn)為語(yǔ)言是分層次的,如語(yǔ)義層、語(yǔ)法層和音系層,各個(gè)層

27、次都各自的系統(tǒng)。這些系統(tǒng)由功能特征項(xiàng)通過(guò)析取或合取的關(guān)系組成。當(dāng)網(wǎng)絡(luò)中有關(guān)系統(tǒng)的每個(gè)步驟一一實(shí)現(xiàn)后,便可產(chǎn)生語(yǔ)言的結(jié)構(gòu)。不難看出,系統(tǒng)功能語(yǔ)法是一個(gè)從功能到結(jié)構(gòu)的過(guò)程,這個(gè)過(guò)程和自然語(yǔ)言生成是相吻合的,因而非常適用于自然語(yǔ)言生成。Halliday認(rèn)為任何語(yǔ)言都具有三個(gè)“元功能”,分別是概念功能、人際功能和語(yǔ)篇功能。概念功能:認(rèn)為語(yǔ)言是對(duì)存在于主客觀世界的過(guò)程和事物的反映,又叫做“經(jīng)驗(yàn)”功能。概念功能包括及物性、語(yǔ)態(tài)和歸一度三個(gè)語(yǔ)義系統(tǒng)。及物性系統(tǒng)主要探討一個(gè)句子中主要?jiǎng)釉~與參與者(participant)之間的語(yǔ)義關(guān)系,并指明事件發(fā)生的時(shí)間、地點(diǎn)、方式等信息。由此看,及物性系統(tǒng)用于確定句子的類(lèi)

28、型和頂層框架。Halliday的及物性系統(tǒng)包括六種過(guò)程:物質(zhì)過(guò)程、心理過(guò)程、關(guān)系過(guò)程、行為過(guò)程、言語(yǔ)過(guò)程和存在過(guò)程。按參與者不同,語(yǔ)態(tài)系統(tǒng)分為“中動(dòng)語(yǔ)態(tài)”和“非中動(dòng)語(yǔ)態(tài)”。 “中動(dòng)語(yǔ)態(tài)”表示過(guò)程只與一個(gè)參與者有關(guān)?!胺侵袆?dòng)語(yǔ)態(tài)”表示過(guò)程與兩個(gè)及多個(gè)參與者有關(guān),它包括主動(dòng)語(yǔ)態(tài)和被動(dòng)語(yǔ)態(tài)。歸一度系統(tǒng)則表示過(guò)程的語(yǔ)義是肯定還是否定。人際功能:指語(yǔ)言表達(dá)講話者的態(tài)度和推斷,并能進(jìn)一步影響對(duì)方的態(tài)度和行為。人際功能包括語(yǔ)氣、情態(tài)和語(yǔ)調(diào)系統(tǒng)三個(gè)部分。其基本網(wǎng)絡(luò)如下圖所示。祈使 語(yǔ)氣 感嘆 陳述直陳人際功能 情態(tài)疑問(wèn) 語(yǔ)調(diào)圖5 人際功能網(wǎng)絡(luò)由于英語(yǔ)語(yǔ)氣和態(tài)制系統(tǒng)都是通過(guò)動(dòng)詞的形態(tài)來(lái)體現(xiàn)的,而且二者相關(guān)聯(lián),所

29、以Halliday把時(shí)態(tài)系統(tǒng)也看作語(yǔ)氣系統(tǒng)的一部分。英語(yǔ)中語(yǔ)氣的表達(dá)常常伴隨著助動(dòng)詞的使用、語(yǔ)序的改變等等。表達(dá)各種情態(tài)和時(shí)態(tài)時(shí)除了有相應(yīng)的助動(dòng)詞外,還需要?jiǎng)釉~形態(tài)的變化。而漢語(yǔ)通過(guò)詞匯手段來(lái)實(shí)現(xiàn)語(yǔ)氣、時(shí)態(tài)和情態(tài)功能。如表達(dá)語(yǔ)氣時(shí),用“嗎”、“呢”等語(yǔ)氣詞表疑問(wèn)語(yǔ)氣,而“啊”表示驚嘆語(yǔ)氣等等。表達(dá)時(shí)態(tài)時(shí),用“了”、“已經(jīng)”表達(dá)完成時(shí),用“正在”表達(dá)進(jìn)行時(shí)等等。各種情態(tài)也有相應(yīng)的助動(dòng)詞,如用“會(huì)”表示“可能”這種情態(tài)。語(yǔ)調(diào)是通過(guò)語(yǔ)音來(lái)體現(xiàn)的,本文中不涉及。語(yǔ)篇功能:認(rèn)為語(yǔ)言通常需要被說(shuō)話者組織成語(yǔ)篇才能表達(dá)相對(duì)完整的思想。這個(gè)功能包括主位結(jié)構(gòu)、信息結(jié)構(gòu)和銜接三個(gè)語(yǔ)義系統(tǒng)。主位結(jié)構(gòu)系統(tǒng)、信息結(jié)構(gòu)系

30、統(tǒng)通常用在文本規(guī)劃中,不在我們基于IF目標(biāo)語(yǔ)言生成的研究范圍之內(nèi)。而銜接系統(tǒng)主要用于句子類(lèi)型為復(fù)句的情況,基本可以劃分并列、遞進(jìn)、條件、因果等十類(lèi)。在IF中,銜接關(guān)系被進(jìn)一步細(xì)化。在我們的表層生成器中,目標(biāo)語(yǔ)言語(yǔ)法的建立是按照這三個(gè)元功能進(jìn)行的。我們主要建立了中英文生成的單句功能網(wǎng)絡(luò),它由概念功能、人際功能和語(yǔ)篇功能三個(gè)功能體系組成。在功能系統(tǒng)中,主要建立了及物性系統(tǒng),這種及物性系統(tǒng)是根據(jù)動(dòng)詞的語(yǔ)義以及動(dòng)詞和名詞之間的搭配關(guān)系進(jìn)行分類(lèi)的。在人際功能系統(tǒng)中,包括時(shí)態(tài)系統(tǒng)、語(yǔ)氣系統(tǒng)、情態(tài)系統(tǒng)。在語(yǔ)篇系統(tǒng)中,主要建立了銜接系統(tǒng)。限于篇幅,在此不對(duì)我們的生成語(yǔ)法進(jìn)行詳細(xì)介紹,僅給出一個(gè)應(yīng)用的實(shí)例。語(yǔ)義

31、句法特征結(jié)構(gòu)實(shí)例:process.type possessivemooddeclarativetensepresentvoiceactive(possessor.type person.person first.number plural)(possessed.type object|*room*.lex single.numbersingle(.modifier.type describer|*price-modifiers*.modifier.degreecomparative.modifier.lex cheap)目標(biāo)語(yǔ)句:“We have a cheaper single room.|

32、我們有一間便宜些的單人房。”上述例子中,為更清楚描述我們的語(yǔ)法,我們加入了“mood”、“tense”、“voice”項(xiàng)。而在實(shí)際應(yīng)用中,這三項(xiàng)在此取值均為缺省值,相應(yīng)項(xiàng)并不出現(xiàn)在語(yǔ)義句法特征結(jié)構(gòu)中。在具體定義語(yǔ)法規(guī)則的時(shí)候,為提高生成系統(tǒng)的魯棒性,針對(duì)口語(yǔ)常常出現(xiàn)省略現(xiàn)象,我們放松了某些句子參與成分的限制,允許生成不完整的句子。在功能表達(dá)中,合一算法是基本的算法,它與集合算法的不同點(diǎn)在于在進(jìn)行合一前,要檢驗(yàn)被合一部分的相容性。兩個(gè)功能描述相容意味著它們同一特征的屬性值相容或具有相容的不同特征。自然語(yǔ)言的語(yǔ)言概念間存在等級(jí)關(guān)系,當(dāng)兩個(gè)屬性值所屬語(yǔ)義類(lèi)存在上下位關(guān)系時(shí),我們也認(rèn)為它們相容,而且合

33、一結(jié)果為處于下位的值。如:在語(yǔ)法規(guī)則中要求某一特征的語(yǔ)義類(lèi)型為食品,但在輸入中這一特征的語(yǔ)義類(lèi)型為面包,我們認(rèn)為兩者相容,而且合一結(jié)果是面包。合一算法能把若干個(gè)功能描述合并成一個(gè)單獨(dú)的功能描述,使這個(gè)功能描述所描述對(duì)象是若干個(gè)功能描述對(duì)象之和。具體功能合一算法的描述請(qǐng)參見(jiàn)文獻(xiàn)(吳華 2000)。在自然語(yǔ)言生成過(guò)程中,輸入的語(yǔ)義句法特征結(jié)構(gòu)已經(jīng)包含了足夠的關(guān)于句子和短語(yǔ)信息,所以整個(gè)生成過(guò)程可以按照自頂至下、深度優(yōu)先的順序進(jìn)行:首先是輸入與語(yǔ)法規(guī)則的句子頂層信息合一,繼而是將各個(gè)非原子值的特征值循環(huán)與短語(yǔ)規(guī)則進(jìn)行合一。合一的結(jié)果得到不含變量的句子的所有成分。之后在線性化過(guò)程中,確定句子各個(gè)成分在

34、句子表面形式中出現(xiàn)的線性順序。在后處理中,生成器主要實(shí)現(xiàn)的是根據(jù)目標(biāo)語(yǔ)言的特點(diǎn)(英文或中文)進(jìn)行詞匯形態(tài)的確定、詞序的調(diào)整或功能詞的添加。對(duì)英文生成,主要處理的是名詞、動(dòng)詞、形容詞和副詞。對(duì)名詞主要處理的是單復(fù)數(shù)的形態(tài)變化。此外,對(duì)專(zhuān)有名詞,還有冠詞“the”的添加問(wèn)題。對(duì)動(dòng)詞,主要考慮動(dòng)詞隨時(shí)態(tài)、語(yǔ)態(tài)以及主語(yǔ)的人稱(chēng)、數(shù)的不同而進(jìn)行的形態(tài)變化和助動(dòng)詞的添加。針對(duì)形容詞和副詞,則是在存在比較的情況下處理其在不同比較級(jí)別(原級(jí)、比較級(jí)、最高級(jí))的形態(tài)變化。對(duì)于漢語(yǔ)生成,由于漢語(yǔ)沒(méi)有詞形的變化,而是將時(shí)態(tài)、語(yǔ)態(tài)、語(yǔ)氣等信息都體現(xiàn)在副詞或功能詞的添加上,所以這部分主要是根據(jù)漢語(yǔ)相應(yīng)的時(shí)態(tài)、語(yǔ)態(tài)、語(yǔ)氣等

35、語(yǔ)法規(guī)則選擇恰當(dāng)?shù)母痹~或功能詞在恰當(dāng)?shù)奈恢锰砑?。此外,還包括結(jié)構(gòu)助詞的添加,以使句子通順、自然。4 實(shí)驗(yàn)結(jié)果我們系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)和測(cè)試語(yǔ)料是C-STAR組織的BTEC語(yǔ)料(http:/ /),旅游信息咨詢和服務(wù)領(lǐng)域的英文NESPOLE!標(biāo)注語(yǔ)料 NESPOLE!為另一計(jì)劃名稱(chēng),但是由于其采用的IF與C-STAR相同,而且應(yīng)用領(lǐng)域有很大一部分重合,所以可以直接用其相應(yīng)的標(biāo)注語(yǔ)料對(duì)我們的系統(tǒng)進(jìn)行測(cè)試。我們從中選擇了150個(gè)不同的句子進(jìn)行測(cè)試(BTEC語(yǔ)料手工標(biāo)注IF),其中旅館服務(wù)領(lǐng)域句子以及習(xí)慣用語(yǔ)有100句,其它旅游信息咨詢領(lǐng)域的句子有50句。實(shí)驗(yàn)結(jié)果如表1所示:Co

36、rpusCorrectUnderstandableWrongNo resultAccuracyHOTEL73147687%TRAVEL716121546%表1. 實(shí)驗(yàn)結(jié)果表1中,“Understandable”表示生成的句子存在錯(cuò)誤或不完整,但是不影響我們對(duì)句子的理解?!癗o result”則對(duì)應(yīng)著那些我們的規(guī)則沒(méi)能處理的句子。正確率的計(jì)算公式為:,即為正確的加可理解的句子與總的測(cè)試語(yǔ)句之比值。由表1可以看出,我們的生成器在旅館服務(wù)領(lǐng)域已經(jīng)取得了比較令人滿意的性能,可是在整個(gè)旅游領(lǐng)域的性能還遠(yuǎn)遠(yuǎn)不能滿足要求。究其原因,是我們的微觀規(guī)劃規(guī)則和詞典的覆蓋率還不夠,這是我們下一步工作的重點(diǎn)之一。此外

37、,即便在旅館領(lǐng)域,系統(tǒng)性能仍有提高的余地,需要我們繼續(xù)深入研究,以改善其性能。5結(jié)語(yǔ)本文介紹了我們多語(yǔ)言口語(yǔ)翻譯系統(tǒng)中中英文生成方法的研究工作。我們采用模板與基于特征相結(jié)合的混合生成方法,對(duì)于那些相對(duì)固定的口語(yǔ)表達(dá)方式,我們采用模板的方法以提高效率,而對(duì)于其他靈活的表達(dá)方式,我們采用基于特征的生成方法以滿足其靈活性的要求。二者的結(jié)合,確保了系統(tǒng)在保證一定效率的前提下,具有更好的靈活性與通用性。此外,我們?cè)诨谔卣鞯纳顚由森h(huán)節(jié)采取盡量減少中間轉(zhuǎn)換的策略,進(jìn)一步提高生成效率。在表層生成部分,我們分別定義了基于系統(tǒng)功能語(yǔ)法的漢語(yǔ)和英語(yǔ)生成規(guī)則,使得系統(tǒng)能夠生成漢語(yǔ)和英語(yǔ)。實(shí)驗(yàn)結(jié)果表明我們的混合生成

38、方法可以很好地應(yīng)用到我們多語(yǔ)言口語(yǔ)翻譯系統(tǒng)中的中英文目標(biāo)語(yǔ)言生成當(dāng)中。下一步的工作一是考慮在短語(yǔ)規(guī)劃和表層生成部分引入統(tǒng)計(jì)方法以改善系統(tǒng)在IF存在錯(cuò)誤或信息丟失的情況下生成器的魯棒性,并改進(jìn)生成結(jié)果的自然度和流暢性,二是進(jìn)一步改進(jìn)現(xiàn)有規(guī)劃規(guī)則及詞典的定義以提高系統(tǒng)的可維護(hù)性和領(lǐng)域可移植性。致謝本文介紹的工作得到國(guó)家自然科學(xué)基金項(xiàng)目的資助,項(xiàng)目編號(hào)分別為:60175012、 60121302和60375018。同時(shí)該工作還得到國(guó)家高技術(shù)項(xiàng)目(863計(jì)劃)(項(xiàng)目編號(hào):2002AA117010)、中國(guó)科學(xué)院海外杰出學(xué)者基金(項(xiàng)目編號(hào)為:2003-1-1)和國(guó)家科技部 PRA 項(xiàng)目(編號(hào):PRA SI

39、02-05)資助。參考文獻(xiàn)C-STAR Consortium, 1999, “Dialogue Act Annotation”, from “/ main/ _RESTRICT/IF/ htdocs/comp/”.Ehud Reiter, 1995, “NLG vs. Templates”, In Proc of the Fifth European Workshop on Natural-Language Generation (ENLGW-1995), Leiden, the Netherlands, Pages 95-105.E. Reiter a

40、nd R. Dale, 1997, “Building Applied Natural-Language Generation Systems”, Journal of Natural-Language Engineering, Pages 57-87.Emanuele Pianta and Lucia M. Tovena, 1999, “XIG: Generating from Interchange Format using Mixed Representations”, Proceedings of Euro Workshop on NLG, Toulous F, Pages 145-1

41、54.Hua Wu, Taiyi Huang, Chengqing Zong and Bo Xu, 2000, “Chinese Generation in a Spoken Dialogue Translation System”, Proceedings of COLING 2000, Pages 1141-1145.John A. Bateman, 1996, “Language Generation”. In R. A. Cole, J. Mariani, H. Uszkoreit, A. Zaenen and V. Zue, eds, 'Survey of State of

42、the Art in Human Language Technology', Cambridge University Press, chapter 4, Pages 162-179., 1999, “Generating felicitous sentences from underspecified semantic representations”, in Proceedings of the 3rd International Workshop on Computational Semantics, Tilburg NL, Pages 410-412Lori Levin, et

43、 al., 2002, “Balancing Expressiveness and Simplicity in an Interlingua for Task Based Dialogue”, In Proceedings of Speech-to-Speech Translation Workshop at the 40th Annual Meeting of the Association of Computational Linguistics (ACL-02), Philadelphia, PA, Pages 53-60.Lori Levin, et al., 2003, “The N

44、ESPOLE! Interchange Format”, from “http:/ / nespole/ db/current/”.Stephan Busemann and Helmut Horacek, August 1998, “A Flexible Shallow Approach to Text Generation”. In: Eduard Hovy (ed.): Proceedings of the Nineth International Natural Language Generation Workshop (INLG '98), Niagara-on-the-Lake, Canada, Pages 238-247./.馮志偉, 1996, 自然語(yǔ)言的計(jì)算機(jī)處理. 上海外語(yǔ)教育出版社.胡壯鱗,朱永生,張德錄, 1989.10.系統(tǒng)功能語(yǔ)法概論. 湖南教育出版社.吳華, 2000, “漢語(yǔ)自然語(yǔ)言生成的理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論