專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理_第1頁(yè)
專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理_第2頁(yè)
專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理_第3頁(yè)
專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理_第4頁(yè)
專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

專利文獻(xiàn)翻譯中的復(fù)雜并列結(jié)構(gòu)的處理

1統(tǒng)計(jì)機(jī)器翻譯擴(kuò)大了服務(wù)于專利的內(nèi)容如何在系統(tǒng)中引用豐富的語(yǔ)言信息,尤其是語(yǔ)法結(jié)構(gòu)信息,是當(dāng)前機(jī)器翻譯培訓(xùn)的熱點(diǎn)。因?yàn)椴煌恼Z(yǔ)言之間存在著用詞和結(jié)構(gòu)上的巨大差異,只有完整地分析出源句的結(jié)構(gòu)和語(yǔ)義,才能保證翻譯系統(tǒng)的質(zhì)量。但是,目前的翻譯系統(tǒng)還不能有效地利用所有語(yǔ)言信息,也不可能達(dá)到和人工翻譯相比擬的結(jié)果,特別是針對(duì)專利文獻(xiàn)這樣結(jié)構(gòu)復(fù)雜的句子,翻譯質(zhì)量很差。大致來(lái)講,現(xiàn)行的機(jī)器翻譯系統(tǒng)主要有基于規(guī)則和基于統(tǒng)計(jì)兩種方法。在規(guī)則系統(tǒng)中,人工可以編寫(xiě)出復(fù)雜的、有著明確語(yǔ)言學(xué)意義的規(guī)則,較容易利用語(yǔ)法信息,但是在人力成本、常用習(xí)語(yǔ)的翻譯上不如統(tǒng)計(jì)系統(tǒng)。對(duì)于統(tǒng)計(jì)系統(tǒng)而言,雖然節(jié)省了大量的人力,也省去了用于解決規(guī)則沖突的復(fù)雜設(shè)計(jì),但是卻難以將語(yǔ)法結(jié)構(gòu)等信息引入數(shù)學(xué)模型。提出了在統(tǒng)計(jì)機(jī)器翻譯基礎(chǔ)上引入一個(gè)特定語(yǔ)法結(jié)構(gòu)(并列結(jié)構(gòu))的一種方法,彌補(bǔ)了統(tǒng)計(jì)系統(tǒng)在復(fù)雜結(jié)構(gòu)方面的劣勢(shì),同時(shí)保留統(tǒng)計(jì)翻譯在經(jīng)驗(yàn)句式、人力成本等方面優(yōu)于規(guī)則系統(tǒng)的特點(diǎn)。通過(guò)對(duì)并列結(jié)構(gòu)的拆分和翻譯結(jié)果的合并,實(shí)現(xiàn)了對(duì)這種結(jié)構(gòu)的處理。實(shí)驗(yàn)表明,相對(duì)于原本的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),這種方法提高了翻譯的質(zhì)量(BLEU值提高了1%)。這種方法在原來(lái)的翻譯系統(tǒng)之上增加了預(yù)處理和后處理模塊,在大體上獨(dú)立于原來(lái)的算法,因此,可以比較容易地應(yīng)用于不同的翻譯系統(tǒng)。2同步.語(yǔ)法意義上的語(yǔ)法信息傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)一般采用基于短語(yǔ)的翻譯方法,來(lái)源于一個(gè)噪聲信道模型,這種方法由IBM在1993年提出,它只是將句子處理成一個(gè)平坦的順序結(jié)構(gòu),不能體現(xiàn)任何層次性的語(yǔ)法結(jié)構(gòu)信息。在此之后,有很多工作嘗試在統(tǒng)計(jì)翻譯模型中考慮句法結(jié)構(gòu)的信息。1997年,DeKaiWu在統(tǒng)計(jì)機(jī)器翻譯的基礎(chǔ)上,引入了自然語(yǔ)言中的句子具有層次性這個(gè)思想,但是,除此之外并沒(méi)有考慮語(yǔ)言學(xué)意義上的因素。在此之后也有一些工作在統(tǒng)計(jì)翻譯中引入了語(yǔ)言學(xué)意義上的語(yǔ)法信息,他們使用語(yǔ)法標(biāo)注的平行語(yǔ)料來(lái)訓(xùn)練,使用了語(yǔ)法樹(shù)或者依賴樹(shù)。但是早期的基于句法結(jié)構(gòu)的統(tǒng)計(jì)翻譯系統(tǒng)效果并不好,也有人指出引進(jìn)諸多與句法結(jié)構(gòu)特別是語(yǔ)法意義上結(jié)構(gòu)相關(guān)的特征并不能顯著改善翻譯質(zhì)量。這可能是因?yàn)榧由线@些語(yǔ)法的限制之后,大大縮減了訓(xùn)練短語(yǔ)的數(shù)目,所以損害了翻譯系統(tǒng)的質(zhì)量。在此之后ChiangDavid提出了一種基于同步上下文無(wú)關(guān)文法的翻譯,一定程度上提高了翻譯的質(zhì)量,但也沒(méi)有加入語(yǔ)法意義的結(jié)構(gòu)信息。該文試圖在一個(gè)具體的方面利用語(yǔ)法意義的結(jié)構(gòu)信息,從而增強(qiáng)翻譯系統(tǒng)處理復(fù)雜結(jié)構(gòu)的能力。3翻譯系統(tǒng)的組成在專利文獻(xiàn)中,經(jīng)常有許多復(fù)雜的句子,它們往往有許多嵌套或者不嵌套的并列結(jié)構(gòu)。翻譯系統(tǒng)如果將并列的轄域和層次關(guān)系分析錯(cuò)誤的話,就會(huì)嚴(yán)重影響翻譯的結(jié)果。以英文翻譯為例,描述一些英文句子中含有一個(gè)或多個(gè)“and”的現(xiàn)象(含有“or”等其他連接詞的情況類似。)3.1定義兩個(gè)以上的or環(huán)境組合indisc在英文句子中,研究的并列結(jié)構(gòu)是指以一個(gè)連接詞“and”為核心的,幾個(gè)并列的詞或短語(yǔ)組成的結(jié)構(gòu)。例如:例句1Theinventionrelatesto[asoftenedfoodstuff]and[thepreparingmethod]。例句1中含有一個(gè)并列結(jié)構(gòu)。斜體的and是這個(gè)結(jié)構(gòu)的“連接詞”,and旁的兩個(gè)名詞短語(yǔ)用方括號(hào)標(biāo)出來(lái),表示這個(gè)并列結(jié)構(gòu)的各“元素”。所有的元素組成了這個(gè)and的“轄域”。and和它的轄域組成了一個(gè)“并列結(jié)構(gòu)”。對(duì)于一個(gè)英文句子,在含有兩個(gè)或兩個(gè)以上and的時(shí)候,根據(jù)各自轄域范圍,可以大致分為兩種:轄域之間相互獨(dú)立,如例句2;也可以是有嵌套關(guān)系,即一個(gè)轄域包含另一個(gè),如例句3。句中的方括號(hào)和圓括號(hào)分別表示出兩個(gè)并列結(jié)構(gòu)各自的元素。例句2Disclosedisajigforstampingaprimaryboardforaliquidcrystaldisplaycircuit,whichisusedtoperform[stamping]and[trimming]onaprimaryboardforliquidcrystaldisplaycircuit,comprising(achassis),(amovableplate),and(astampingdevice)。例句3[Asetoffixingpiecesisprovidedwithanannu-larcatchinggrooveattheinnerside],and[asetofannulargroovesisprovidedwith(asetofhollows)and(anopening)]。3.2不穩(wěn)定塊在格蘭圖5的第5型“和”的譯句下面舉例說(shuō)明翻譯系統(tǒng)對(duì)并列結(jié)構(gòu)的處理情況:例句4[Asetoffixingpiecesisprovidedwithanannu-larcatchinggrooveattheinnerside],and[asetofannulargroovesisprovidedwith(asetofhollows)and(anopening)]。譯句4一套固定塊在內(nèi)側(cè)具備一個(gè)環(huán)形的扣槽,一套環(huán)形槽具備一套圓角面和一個(gè)開(kāi)放。這個(gè)譯句被認(rèn)為是基本正確。原句由兩個(gè)并列的字句組成,這里翻譯為兩個(gè)逗號(hào)隔開(kāi)的句子。后面一個(gè)“and”連接兩個(gè)名詞詞組,翻譯成“和”,并且連接關(guān)系明顯正確。例句5Acoreline[isaccommodated]and[freelymoves(back)and(forth)]insideanoutertubeofflexiblewire.譯句5一個(gè)果心線被容納,并且在軟線的一個(gè)外管內(nèi)和向前自由地往后退。這個(gè)譯句被認(rèn)為翻譯錯(cuò)誤。第一個(gè)and的后半部分轄域判斷過(guò)長(zhǎng)。第二個(gè)and轄域明顯錯(cuò)誤。3.3android系統(tǒng)簡(jiǎn)介從專利文獻(xiàn)中分別選取了幾十句含有若干個(gè)“and”的句子。分別測(cè)試了目前的翻譯系統(tǒng)和句法分析系統(tǒng)的效果,如表1所示。選用了GoogleTranslation作為測(cè)試翻譯系統(tǒng)。GoogleTranslation是Google公司開(kāi)發(fā)的一個(gè)機(jī)器翻譯的商業(yè)產(chǎn)品(/)。SP是StanfordParser系統(tǒng),是一個(gè)基于統(tǒng)計(jì)的句法分析系統(tǒng),可以用它做輸入句子的分析工作。RMBT是一個(gè)基于規(guī)則的翻譯系統(tǒng),用于參考。從結(jié)果中可以看出,基于統(tǒng)計(jì)翻譯(SMT)的Google翻譯系統(tǒng)在處理句子并列結(jié)構(gòu)時(shí)效果很差。而現(xiàn)有的句法分析卻能達(dá)到較好的結(jié)果(StanfordParser正確率為76.92%)。作為參照,RBMT系統(tǒng)達(dá)到了和句法分析相當(dāng)?shù)慕Y(jié)果,這是因?yàn)樗灿玫搅撕芏嗯c句子結(jié)構(gòu)有關(guān)的規(guī)則形式。從翻譯系統(tǒng)和句法分析正確率的差距來(lái)看,統(tǒng)計(jì)翻譯系統(tǒng)(Google)可能有較大的性能提升的空間。而RMBT系統(tǒng)并沒(méi)有太大的提升空間。4采用分段集成法處理合并結(jié)構(gòu)4.1插裝式分離法針對(duì)上述并列結(jié)構(gòu)處理的問(wèn)題,提出了一種方法——拆分合并法。這種方法基于一個(gè)認(rèn)識(shí):并列的句子結(jié)構(gòu)表達(dá)了幾個(gè)并列的意思,可以用幾個(gè)并列的句子分別表達(dá)??紤]到并列結(jié)構(gòu)中各元素的獨(dú)立性,將并列結(jié)構(gòu)退化為并列結(jié)構(gòu)的各個(gè)元素,然后分別產(chǎn)生各自的“退化句”。將這些預(yù)處理過(guò)后的退化句送入翻譯系統(tǒng),它們的翻譯結(jié)果就完整地表達(dá)了原來(lái)的意思。而且在這種情況下,翻譯系統(tǒng)只需要對(duì)簡(jiǎn)單句做處理,避免了直接面對(duì)并列結(jié)構(gòu)的處理,會(huì)有較高的準(zhǔn)確率。以例句5為例。它含有兩個(gè)嵌套的并列結(jié)構(gòu),可以由此生成三個(gè)退化句,如下所示:這三個(gè)句子被翻譯為:(1)一個(gè)果心線在軟線的一個(gè)外管內(nèi)[被容納]。(2)一個(gè)果心線在軟線的一個(gè)外管內(nèi)[自由地(往后退)]。(3)一個(gè)果心線在軟線的一個(gè)外管內(nèi)[自由地(向前移動(dòng))]。三個(gè)句子分別表達(dá)了各自獨(dú)立的意思,然后合起來(lái)完整地表達(dá)了原句的意思。雖然其他的一些詞匯翻譯并不準(zhǔn)確,但是很好地處理了并列結(jié)構(gòu)。一般情況下,期待翻譯結(jié)果只輸出一個(gè)完整的句子,因此,需要將結(jié)果組合起來(lái),將不同的元素合并成并列結(jié)構(gòu)。上述的這三個(gè)譯句,根據(jù)層次性,先合并2和3,然后是1。合并后的譯句為:譯句6一個(gè)果心線在軟線的一個(gè)外管內(nèi)被容納并且自由地往后退和向前移動(dòng)??梢悦黠@看出,譯句6比譯句5更好地體現(xiàn)了轄域和層次性。該文提出的拆分合并法,是通過(guò)對(duì)源句的預(yù)處理和目標(biāo)句的后處理,來(lái)實(shí)現(xiàn)對(duì)復(fù)雜句子中的并列結(jié)構(gòu)的處理。這些處理和翻譯系統(tǒng)的具體翻譯策略是獨(dú)立的,它們只需要向翻譯系統(tǒng)傳入源語(yǔ)言的句子,得到目標(biāo)語(yǔ)言的句子。因此,這種方法可以方便地應(yīng)用于不同的翻譯系統(tǒng)。下面,詳細(xì)介紹句子拆分和合并的技術(shù)。4.2句子的分工4.2.1面的式子的生成拆分模塊的主要作用是將一個(gè)句子拆分成若干個(gè)句子,保持意思的完整性。對(duì)于并列結(jié)構(gòu)來(lái)說(shuō),拆分基本上類似于一個(gè)乘法分配率的過(guò)程:把并列結(jié)構(gòu)中的每一個(gè)元素單獨(dú)提出來(lái),代替原來(lái)的整個(gè)并列結(jié)構(gòu),就生成了一個(gè)退化句。拆分的基本模式可以表示為下面的式子:式(1)的左側(cè)表示了一個(gè)拆分前的句子。括號(hào)中的部分是一個(gè)并列結(jié)構(gòu),它由n個(gè)元素(e1,e2,…,en)和1個(gè)連接詞(conj)組成,前后各有一個(gè)部分(S1,S2)。式子右側(cè)表示了拆分后的n個(gè)退化句。如果句子不只是一個(gè)并列結(jié)構(gòu),那么拆分后的n個(gè)句子可能仍然含有并列結(jié)構(gòu)。需要把含有并列結(jié)構(gòu)的子句再次拆分。當(dāng)并列結(jié)構(gòu)發(fā)生嵌套時(shí),先處理上層的并列結(jié)構(gòu),再處理下層的并列結(jié)構(gòu),這樣可以避免生成重復(fù)的字句。如果所有的并列結(jié)構(gòu)都是嵌套的,那么最終得到的句子和并列結(jié)構(gòu)的數(shù)目呈線性關(guān)系;如果所有的并列結(jié)構(gòu)都是不嵌套的,那么最終得到的句子和并列結(jié)構(gòu)數(shù)目呈指數(shù)關(guān)系。當(dāng)非嵌套并列結(jié)構(gòu)數(shù)目增加時(shí),得到字句的數(shù)目也會(huì)顯著增加。所幸一個(gè)句子的并列結(jié)構(gòu)并不會(huì)太多,因此計(jì)算的復(fù)雜度仍然在可以接受的范圍之內(nèi)。4.2.2連接詞是連接詞,或者整個(gè)節(jié)點(diǎn)都是元素句子的拆分需要首先確定句子中的并列結(jié)構(gòu),文中使用句法分析系統(tǒng)對(duì)句子的分析結(jié)果來(lái)實(shí)現(xiàn)這個(gè)目的。具體使用了StanfordParser作為句法分析系統(tǒng)。但是其他類似的系統(tǒng)也可以完成這個(gè)工作。對(duì)于例句4,StanfordParser分析出如圖1所示的結(jié)果。下面要做的,就是從這個(gè)結(jié)果里面提出并列結(jié)構(gòu),并將其表示為連接詞conj和各元素{e1,e2,…,en}。Parser并沒(méi)有給出顯式的這樣的結(jié)果,只是把連接詞和一些元素并列放在一個(gè)分析樹(shù)的節(jié)點(diǎn)中。在圖1中有兩個(gè)這樣的節(jié)點(diǎn):它們含有兩個(gè)并列結(jié)構(gòu):{e1=(VP),e2=(VP),conj=(CCand)}和{e1=(RB),e2=(RB),conj=(CCand)}。一般的,并列結(jié)構(gòu)的連接詞就是子節(jié)點(diǎn)(CCand),但是其他的子節(jié)點(diǎn)不一定都是元素。整個(gè)節(jié)點(diǎn)的形式可能有很多種,使用幾個(gè)簡(jiǎn)單的規(guī)則從這個(gè)結(jié)果中確定并列結(jié)構(gòu):(1)如果此層次上沒(méi)有分割標(biāo)點(diǎn)(逗號(hào),分號(hào)等),那么只有兩個(gè)元素。(1)獲取元素核心標(biāo)簽。一般情況下,是“and”前一個(gè)節(jié)點(diǎn)的標(biāo)簽。(2)如果該節(jié)點(diǎn)的標(biāo)簽是一個(gè)修飾成分(JJ等),那么尋找“and”后面的最后一個(gè)修飾成分,和前面的最前一個(gè)修飾成分。這兩個(gè)之間就是并列結(jié)構(gòu)。(3)如果該標(biāo)簽是“NN”或其他非修飾成分,那么前面后面各為一個(gè)元素。(2)如果有分割標(biāo)點(diǎn),則以連接詞和分割標(biāo)點(diǎn)為分割,每部分各為一個(gè)元素。4.2.3合并方式的選擇僅僅確定并列結(jié)構(gòu)是不夠的,在翻譯的結(jié)果的合并中,需要考慮and翻譯成什么,元素之間怎樣連接等問(wèn)題。這些信息主要來(lái)源于源句,所以,在拆分階段確定以后合并的方式。事實(shí)上在目標(biāo)語(yǔ)言(中文)中有多種多樣的合并方式,依賴的因素也很多,而且沒(méi)有唯一的解。這里選用幾種合并方式,作為候選的合并類型,基本上可以包括中文里面的大多數(shù)情況。該文確定的合并類型包含下面幾個(gè)因素:1)連接詞可以是“和”,“并且”,也可以是沒(méi)有;(1)默認(rèn)連接詞為“和”,元素之間為逗號(hào),連接詞前面沒(méi)有標(biāo)點(diǎn)。(2)元素的核心標(biāo)簽為S時(shí),連接詞為無(wú),連接詞前面有逗號(hào)。(3)元素的核心標(biāo)簽為VP等動(dòng)詞結(jié)構(gòu),且元素較長(zhǎng)時(shí),連接詞為“并且”。(4)元素的核心標(biāo)簽為名詞短語(yǔ)時(shí),且元素較短時(shí),元素間使用頓號(hào)。4.3句子的合并4.3.1[2]翻譯系統(tǒng)的合并一般情況下,期待翻譯結(jié)果只輸出一個(gè)完整的句子,因此,需要將結(jié)果組合起來(lái),將不同的元素合并成并列結(jié)構(gòu)。合并和拆分是正好相反的過(guò)程,對(duì)于翻譯后的n個(gè)句子,采用類似提公因式的方法,過(guò)程如下式所示:式(2)左側(cè)是n個(gè)并列的句子,每個(gè)句子還有一個(gè)并列結(jié)構(gòu)的元素,另外前后各有一個(gè)相同部分S1和S2。合并后的句子如右側(cè)所示。但是,翻譯系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng),經(jīng)常不能保證翻譯結(jié)果的句子結(jié)構(gòu)和原來(lái)的完全相同。比如下面的句子:(1)它通過(guò)混合被生產(chǎn)[到煙草里的野菊花組成部分撕碎]做過(guò)程。(2)它被生產(chǎn)通過(guò)混合[隨后的普通的香煙]制作過(guò)程。上面兩句的翻譯結(jié)果無(wú)法寫(xiě)成式(2)左側(cè)的嚴(yán)格形式,因此,也就無(wú)法直接進(jìn)行組合。對(duì)于這些情況,要么回到原來(lái)未拆分的翻譯結(jié)果,要么就弱化式(2)左側(cè)的嚴(yán)格條件,進(jìn)入如下所述的恢復(fù)模塊。4.3.2句子基本結(jié)構(gòu)符合如果翻譯后的各退化句并不能完全對(duì)齊,那么就需要調(diào)用恢復(fù)模塊。恢復(fù)的基本思想是,在一定條件下,選擇一個(gè)句子作為基準(zhǔn)句,其他的句子按照基準(zhǔn)句的格式,朝基準(zhǔn)句上合并。但如果字句間結(jié)構(gòu)差別過(guò)大,那么就直接輸出未切分的結(jié)果。這個(gè)差別過(guò)大的容忍程度由變量L(恢復(fù)等級(jí)RecoveryLevel)控制。L等級(jí)越大,容忍的程度就越大。系統(tǒng)按照下面的順序嘗試恢復(fù)。(1)如果左側(cè)有兩個(gè)或兩個(gè)以上的退化句符合規(guī)則,剩下的句子基本結(jié)構(gòu)符合,則選擇基準(zhǔn)句強(qiáng)行恢復(fù)。要求L≥1。(2)如果左側(cè)只有兩個(gè)句子,但基本結(jié)構(gòu)符合,選擇標(biāo)準(zhǔn)句強(qiáng)行恢復(fù)。要求L≥2。(3)若左側(cè)有3個(gè)或3個(gè)以上的句子,且沒(méi)有任意兩個(gè)符合規(guī)則,但它們的基本結(jié)構(gòu)符合,選擇基準(zhǔn)句強(qiáng)行恢復(fù)。要求L≥3。(4)以上所有恢復(fù)程序都失敗,則輸出未切分翻譯結(jié)果。要求L≥0。以上所有的恢復(fù)體系都要求句子結(jié)構(gòu)基本符合。舉例說(shuō)明基本符合的標(biāo)準(zhǔn):(1)它通過(guò)混合被生產(chǎn)[到煙草里的野菊花組成部分撕碎]做過(guò)程。(2)它被生產(chǎn)通過(guò)混合[隨后的普通的香煙]制作過(guò)程。這種情況下,所有并列元素的翻譯結(jié)果連續(xù),且每句只有一個(gè)并列結(jié)構(gòu)。假設(shè)以第一句為基準(zhǔn)句,只需要將第二句的并列元素并到第一句的并列元素就可以了。(1)獨(dú)立權(quán)利要求還包括[一個(gè)運(yùn)動(dòng)]的[男性的保護(hù)的運(yùn)動(dòng)]的一個(gè)附著的方法。(2)一個(gè)獨(dú)立的聲明也為[男性的保護(hù)的運(yùn)動(dòng)]的一個(gè)附著的方法被包括到[運(yùn)動(dòng)衣]。這種情況下,所有并列元素的翻譯結(jié)果連續(xù)。每句有兩個(gè)不相交的并列結(jié)構(gòu),且順序不一致,但是有一個(gè)并列元素是相同的。那么就和前面的例子類似,合并不同的并列元素就行了。綜上所述,句子結(jié)構(gòu)的基本符合應(yīng)當(dāng)滿足:(1)每個(gè)并列元素的翻譯結(jié)果都是連續(xù)的,沒(méi)有間斷。(2)每個(gè)句子含有若干個(gè)互不相交的并列元素,且數(shù)目相同。這些并列元素中,除了一個(gè)之外,其他的在每個(gè)句子中都是一樣的。4.3.3恢復(fù)模塊2和3把復(fù)雜和復(fù)雜液壓層作為基準(zhǔn)句恢復(fù)的時(shí)候,需要一個(gè)基準(zhǔn)句來(lái)進(jìn)行恢復(fù)。選擇標(biāo)準(zhǔn)如下:在恢復(fù)模塊1中,由于已經(jīng)有兩個(gè)符合嚴(yán)格匹配條件的句子了,那么基準(zhǔn)句就選擇這兩個(gè)句子中的任意一個(gè)。對(duì)于恢復(fù)模塊2和3,采取兩種不同的策略選擇基準(zhǔn)句。(1)根據(jù)復(fù)雜度對(duì)于兩個(gè)并列的句子,原句唯一不同的就是關(guān)注的并列元素。如果并列元素的結(jié)構(gòu)越簡(jiǎn)單,翻譯系統(tǒng)處理成功的可能性就越大。因此,選擇并列元素最簡(jiǎn)單(用長(zhǎng)度最短近似)的句子作為基準(zhǔn)句。(2)根據(jù)語(yǔ)言模型語(yǔ)言模型描述了句子的概率,在語(yǔ)言生成中被廣泛地采用。這里可以假設(shè)任意一個(gè)句子為基準(zhǔn)句,根據(jù)語(yǔ)言模型計(jì)算各合并后句子的概率,從候選中選擇最優(yōu)的結(jié)果。5實(shí)驗(yàn)與討論5.1相關(guān)知識(shí)的準(zhǔn)備測(cè)試集包含了大約1000個(gè)含有若干個(gè)“and”的句子,這些句子均來(lái)源于英文的專利文獻(xiàn),并且都有2份人工翻譯的參考。另外有大約2000個(gè)不含“and”的句子,用來(lái)訓(xùn)練語(yǔ)言模型。采用GoogleTranslate的系統(tǒng)作為基準(zhǔn)系統(tǒng),與經(jīng)過(guò)拆分合并法預(yù)處理和后處理之后的系統(tǒng)相比較。采用BLEU值來(lái)衡量翻譯系統(tǒng)的質(zhì)量。同時(shí),在基于規(guī)則的系統(tǒng)RBMT上做同樣的測(cè)試,對(duì)比拆分合并法對(duì)統(tǒng)計(jì)系統(tǒng)和對(duì)規(guī)則系統(tǒng)的影響。5.2拆分合并法的穩(wěn)定性首先在整個(gè)數(shù)據(jù)集上測(cè)試BLEU的值,如表2所示。第一行是原始的Google系統(tǒng),后兩行是加了拆分合并處理后的系統(tǒng)。SC_length在恢復(fù)模塊根據(jù)并列元素復(fù)雜度選擇基準(zhǔn)句,SC_lm是根據(jù)語(yǔ)言模型選擇基準(zhǔn)句。表2中列出了這些系統(tǒng)在不同恢復(fù)等級(jí)下的BLEU值。為了檢驗(yàn)拆分合并法的穩(wěn)定性,將數(shù)據(jù)集隨機(jī)切分成5個(gè)集合,在不同的集合上測(cè)試Google系統(tǒng)與SC_lm系統(tǒng)(恢復(fù)等級(jí)2)的BLEU。實(shí)驗(yàn)結(jié)果如圖2所示。同樣將拆分合并法用于RBMT之上,測(cè)試在整個(gè)測(cè)試集上的BLEU值。結(jié)果比原來(lái)的RBMT沒(méi)有明顯增長(zhǎng),反而略低(原系統(tǒng)為0.2651,加上拆分合并處理后為0.2644)。同樣統(tǒng)計(jì)了經(jīng)拆分合并處理后,表2的結(jié)果,新計(jì)算的結(jié)果如表3所示。5.3系統(tǒng)總體應(yīng)用效果原本的GoogleTranslate對(duì)復(fù)雜并列結(jié)構(gòu)的處理效果很差,正確率不到60%。增加的拆分合并的處理可以改善對(duì)并列結(jié)構(gòu)的翻

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論