融入句型信息的漢英雙向調(diào)序模型.ppt_第1頁(yè)
融入句型信息的漢英雙向調(diào)序模型.ppt_第2頁(yè)
融入句型信息的漢英雙向調(diào)序模型.ppt_第3頁(yè)
融入句型信息的漢英雙向調(diào)序模型.ppt_第4頁(yè)
融入句型信息的漢英雙向調(diào)序模型.ppt_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1,融入句型信息的漢英雙向調(diào)序模型,張家俊、宗成慶 中科院自動(dòng)化所 2008.11.28,2,背景,自從IBM翻譯模型的提取,特別是基于短語(yǔ)的翻譯模型提出后,調(diào)序模型始終是統(tǒng)計(jì)機(jī)器翻譯的關(guān)鍵問(wèn)題,是研究的熱點(diǎn) 從基于距離的扭曲模型、詞匯化的調(diào)序模型到層次化的短語(yǔ)翻譯模型、最大熵調(diào)序模型,都非常有效地提高了翻譯質(zhì)量,3,想法,這些模型沒(méi)有充分利用語(yǔ)言所固有的語(yǔ)法信息,在不需要調(diào)序的地方浪費(fèi)了大量的計(jì)算時(shí)間 這些模型沒(méi)有充分利用句子的先驗(yàn)知識(shí),譬如句型,因?yàn)椴煌木湫途哂胁煌恼{(diào)序策略,4,句型在調(diào)序中的作用,幾個(gè)例子:,5,句型調(diào)序分析,特殊疑問(wèn)句中至少有一固定的短語(yǔ)(我們稱為特殊疑問(wèn)短語(yǔ))在翻譯成英語(yǔ)時(shí)通常出現(xiàn)在句首; 一般疑問(wèn)句在翻譯時(shí)有特定的例如can, do, is等引導(dǎo)詞; 在非疑問(wèn)句中,有很大比例的句子中出現(xiàn)介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ),這些短語(yǔ)在漢語(yǔ)中出現(xiàn)在動(dòng)詞前,而在翻譯時(shí)一般出現(xiàn)在動(dòng)詞的后面,6,口語(yǔ)語(yǔ)料分析,我們分析277k 中英對(duì)齊句對(duì)發(fā)現(xiàn),大約 17.2% 是特殊疑問(wèn)句, 約 25.5% 為一般疑問(wèn)句,其余為非疑問(wèn)句。 可見在口語(yǔ)翻譯中,基于句型的調(diào)序是非常有意義且具有研究?jī)r(jià)值的,7,基于句型調(diào)序的翻譯框架(漢英),C1:特殊疑問(wèn)句,C2:一般疑問(wèn)句,C3:非疑問(wèn)句,8,基于句型調(diào)序的翻譯框架(英漢),C1、C2和C3的意義同上圖,“逆”表示與上圖的算法相似但調(diào)序方向相反,9,模型與算法,句型的分類算法:SVM-based 前向調(diào)序模型、逆前向調(diào)序模型 后向調(diào)序算法、逆后向調(diào)序模型,10,句型分類算法,SVM的優(yōu)勢(shì),分類準(zhǔn)確,幾乎不受標(biāo)點(diǎn)的影響 (我們知道標(biāo)點(diǎn)是句型關(guān)鍵性的特征) 實(shí)驗(yàn): 語(yǔ)料:三類句型分別問(wèn)1000句,80%作為訓(xùn)練,20%作為測(cè)試 實(shí)驗(yàn)結(jié)果:,11,前向調(diào)序模型,適用句型:特殊疑問(wèn)句 調(diào)序?qū)ο螅禾厥庖蓡?wèn)短語(yǔ) 調(diào)序的兩個(gè)關(guān)鍵問(wèn)題: 特殊疑問(wèn)短語(yǔ)的識(shí)別 正確的調(diào)序位置,12,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,特殊疑問(wèn)短語(yǔ)的識(shí)別 我們?cè)谡Z(yǔ)法上給特殊疑問(wèn)短語(yǔ)一個(gè)定義:包含特殊疑問(wèn)詞的完整的語(yǔ)法成分。 特殊疑問(wèn)詞是利用互信息得到的一個(gè)閉集:什么、哪、多(多長(zhǎng)、多久)、怎、誰(shuí)、幾、為什么、何 在漢語(yǔ)中,從語(yǔ)法層面看來(lái),特殊疑問(wèn)短語(yǔ)可能會(huì)是任何一類語(yǔ)法成分,從語(yǔ)法層無(wú)法識(shí)別 我們采用chunking的淺層句法分析來(lái)識(shí)別特殊疑問(wèn)短語(yǔ),13,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,正確的調(diào)序位置 分析翻譯實(shí)例我們發(fā)現(xiàn),調(diào)序的位置分為3類:句首、子句首、特定模板短語(yǔ)(從對(duì)齊語(yǔ)料習(xí)得)后 分別舉例: 這個(gè) 味道 怎么樣 ?=怎么樣 這個(gè) 味道 ? 請(qǐng)問(wèn) , 去 海灘 怎么 走 ? =請(qǐng)問(wèn) , 怎么 走 去 海灘 ? 你 認(rèn)為 到 那 要 多長(zhǎng) 時(shí)間 ?=你 認(rèn)為 要 多 長(zhǎng) 時(shí)間 到 那 ?,14,逆前向調(diào)序模型,適用句型和處理對(duì)象與前向模型一樣 面向英漢翻譯任務(wù) 對(duì)翻譯結(jié)果的修正 同樣面臨調(diào)序的兩個(gè)關(guān)鍵問(wèn)題: 特殊疑問(wèn)短語(yǔ)的識(shí)別 正確的調(diào)序位置,15,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,特殊疑問(wèn)短語(yǔ)的識(shí)別同前向模型 調(diào)序的目標(biāo)位置: 特殊疑問(wèn)句的結(jié)構(gòu) 調(diào)序規(guī)則,16,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,特殊疑問(wèn)句的兩種結(jié)構(gòu) 作為強(qiáng)調(diào)部分出現(xiàn)在句末 作為動(dòng)詞短語(yǔ)的修飾成分出現(xiàn)在動(dòng)詞短語(yǔ)的前面 調(diào)序規(guī)則 若SQP為動(dòng)詞短語(yǔ),則將其調(diào)至包含該SQP的子句末尾 若SQP不是動(dòng)詞短語(yǔ),而且中有動(dòng)詞短語(yǔ),則保持其位置不變;否則將其調(diào)至包含該SQP的子句末尾,17,后向調(diào)序模型,針對(duì)句型:所有句型 調(diào)序?qū)ο螅涸诜g中最有可能調(diào)序的短語(yǔ)=介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ) 調(diào)序的兩個(gè)關(guān)鍵問(wèn)題 介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)與動(dòng)詞短語(yǔ)的識(shí)別 調(diào)序策略,18,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)與動(dòng)詞短語(yǔ)的識(shí)別 采用chunking淺層句法分析 虛擬動(dòng)詞短語(yǔ)(VVP)的定義:由于識(shí)別錯(cuò)誤等原因,有時(shí)在介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)后沒(méi)有識(shí)別出動(dòng)詞短語(yǔ)。為加強(qiáng)該模型的適應(yīng)性,我們定義自此介詞或時(shí)間地點(diǎn)短語(yǔ)后到子句的結(jié)束為偽動(dòng)詞短語(yǔ),并賦予其動(dòng)詞短語(yǔ)的功能。 例:請(qǐng) 在 這里 簽名 。“簽名”被識(shí)別為NP,在我們的模型中,它就是VVP,19,調(diào)序的兩個(gè)關(guān)鍵問(wèn)題,調(diào)序策略:利用最大熵模型決定識(shí)別出的介詞或時(shí)間地點(diǎn)短語(yǔ)是否需調(diào)序到緊跟著它們的動(dòng)詞短語(yǔ)后。 調(diào)序規(guī)則:,20,逆后向調(diào)序模型,面向英漢翻譯任務(wù) 介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)等的識(shí)別方法同后向模型 調(diào)序方向相反,21,逆后向調(diào)序模型,調(diào)序規(guī)則,22,實(shí)驗(yàn)設(shè)計(jì)與結(jié)果,baseline: 利用我們實(shí)驗(yàn)室實(shí)現(xiàn)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng) 利用單調(diào)的解碼策略,23,實(shí)驗(yàn)設(shè)計(jì)與結(jié)果,語(yǔ)料說(shuō)明: 表1:漢英翻譯相關(guān)語(yǔ)料 表2:英漢翻譯相關(guān)語(yǔ)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論