




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1融入句型信息的漢英雙向調(diào)序模融入句型信息的漢英雙向調(diào)序模型型 張家俊、宗成慶 中科院自動(dòng)化所 2008.11.282背景o 自從IBM翻譯模型的提取,特別是基于短語(yǔ)的翻譯模型提出后,調(diào)序模型始終是統(tǒng)計(jì)機(jī)器翻譯的關(guān)鍵問(wèn)題,是研究的熱點(diǎn)o 從基于距離的扭曲模型、詞匯化的調(diào)序模型到層次化的短語(yǔ)翻譯模型、最大熵調(diào)序模型,都非常有效地提高了翻譯質(zhì)量3想法o 這些模型沒有充分利用語(yǔ)言所固有的語(yǔ)法信息,在不需要調(diào)序的地方浪費(fèi)了大量的計(jì)算時(shí)間o 這些模型沒有充分利用句子的先驗(yàn)知識(shí),譬如句型,因?yàn)椴煌木湫途哂胁煌恼{(diào)序策略4句型在調(diào)序中的作用o 幾個(gè)例子:5句型調(diào)序分析o 特殊疑問(wèn)句中至少有一固定的短語(yǔ)(我
2、們稱為特殊疑問(wèn)短語(yǔ))在翻譯成英語(yǔ)時(shí)通常出現(xiàn)在句首;o 一般疑問(wèn)句在翻譯時(shí)有特定的例如can, do, is等引導(dǎo)詞;o 在非疑問(wèn)句中,有很大比例的句子中出現(xiàn)介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ),這些短語(yǔ)在漢語(yǔ)中出現(xiàn)在動(dòng)詞前,而在翻譯時(shí)一般出現(xiàn)在動(dòng)詞的后面6口語(yǔ)語(yǔ)料分析o 我們分析277k 中英對(duì)齊句對(duì)發(fā)現(xiàn),大約 17.2% 是特殊疑問(wèn)句, 約 25.5% 為一般疑問(wèn)句,其余為非疑問(wèn)句。o 可見在口語(yǔ)翻譯中,基于句型的調(diào)序是非常有意義且具有研究?jī)r(jià)值的7基于句型調(diào)序的翻譯框架(漢英)英 語(yǔ) 輸出C1C3C2漢 語(yǔ) 輸入句子后向、前向調(diào)序模型 后向調(diào)序模型翻譯引擎分類器后向調(diào)序模型8基于句型調(diào)序的翻譯框架(英漢)
3、o C1、C2和C3的意義同上圖,“逆”表示與上圖的算法相似但調(diào)序方向相反 C1C3C2英 語(yǔ) 輸入句子逆后向、前向調(diào)序模型 逆后向調(diào)序模型漢語(yǔ)結(jié)果輸出分類器逆后向調(diào)序模型英 漢 翻譯引擎9模型與算法o 句型的分類算法:SVM-basedo 前向調(diào)序模型、逆前向調(diào)序模型o 后向調(diào)序算法、逆后向調(diào)序模型10句型分類算法o SVM的優(yōu)勢(shì),分類準(zhǔn)確,幾乎不受標(biāo)點(diǎn)的影響 (我們知道標(biāo)點(diǎn)是句型關(guān)鍵性的特征)o 實(shí)驗(yàn):n 語(yǔ)料:三類句型分別問(wèn)1000句,80%作為訓(xùn)練,20%作為測(cè)試n 實(shí)驗(yàn)結(jié)果:11前向調(diào)序模型o 適用句型:特殊疑問(wèn)句o 調(diào)序?qū)ο螅禾厥庖蓡?wèn)短語(yǔ)o 調(diào)序的兩個(gè)關(guān)鍵問(wèn)題:u 特殊疑問(wèn)短語(yǔ)的識(shí)
4、別u 正確的調(diào)序位置12調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 特殊疑問(wèn)短語(yǔ)的識(shí)別u 我們?cè)谡Z(yǔ)法上給特殊疑問(wèn)短語(yǔ)一個(gè)定義:包含特殊疑問(wèn)詞的完整的語(yǔ)法成分。u 特殊疑問(wèn)詞是利用互信息得到的一個(gè)閉集:什么、哪、多(多長(zhǎng)、多久)、怎、誰(shuí)、幾、為什么、何u 在漢語(yǔ)中,從語(yǔ)法層面看來(lái),特殊疑問(wèn)短語(yǔ)可能會(huì)是任何一類語(yǔ)法成分,從語(yǔ)法層無(wú)法識(shí)別u 我們采用chunking的淺層句法分析來(lái)識(shí)別特殊疑問(wèn)短語(yǔ)13調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 正確的調(diào)序位置u 分析翻譯實(shí)例我們發(fā)現(xiàn),調(diào)序的位置分為3類:句首、子句首、特定模板短語(yǔ)(從對(duì)齊語(yǔ)料習(xí)得)后u 分別舉例:這個(gè) 味道 怎么樣 ?=怎么樣 這個(gè) 味道 ?請(qǐng)問(wèn) , 去 海灘 怎么 走 ? =
5、請(qǐng)問(wèn) , 怎么 走去 海灘 ?你 認(rèn)為 到 那 要 多長(zhǎng) 時(shí)間 ?=你 認(rèn)為 要 多長(zhǎng) 時(shí)間 到 那 ?14逆前向調(diào)序模型o 適用句型和處理對(duì)象與前向模型一樣o 面向英漢翻譯任務(wù)n 對(duì)翻譯結(jié)果的修正o 同樣面臨調(diào)序的兩個(gè)關(guān)鍵問(wèn)題:u 特殊疑問(wèn)短語(yǔ)的識(shí)別u 正確的調(diào)序位置15調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 特殊疑問(wèn)短語(yǔ)的識(shí)別同前向模型o 調(diào)序的目標(biāo)位置:n 特殊疑問(wèn)句的結(jié)構(gòu)n 調(diào)序規(guī)則16調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 特殊疑問(wèn)句的兩種結(jié)構(gòu)n 作為強(qiáng)調(diào)部分出現(xiàn)在句末 n 作為動(dòng)詞短語(yǔ)的修飾成分出現(xiàn)在動(dòng)詞短語(yǔ)的前面 o 調(diào)序規(guī)則n 若SQP為動(dòng)詞短語(yǔ),則將其調(diào)至包含該SQP的子句末尾 n 若SQP不是動(dòng)詞短語(yǔ),而且中
6、有動(dòng)詞短語(yǔ),則保持其位置不變;否則將其調(diào)至包含該SQP的子句末尾 17后向調(diào)序模型o 針對(duì)句型:所有句型o 調(diào)序?qū)ο螅涸诜g中最有可能調(diào)序的短語(yǔ)=介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)o 調(diào)序的兩個(gè)關(guān)鍵問(wèn)題u 介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)與動(dòng)詞短語(yǔ)的識(shí)別u 調(diào)序策略18調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)與動(dòng)詞短語(yǔ)的識(shí)別u 采用chunking淺層句法分析u 虛擬動(dòng)詞短語(yǔ)(VVP)的定義:由于識(shí)別錯(cuò)誤等原因,有時(shí)在介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)后沒有識(shí)別出動(dòng)詞短語(yǔ)。為加強(qiáng)該模型的適應(yīng)性,我們定義自此介詞或時(shí)間地點(diǎn)短語(yǔ)后到子句的結(jié)束為偽動(dòng)詞短語(yǔ),并賦予其動(dòng)詞短語(yǔ)的功能。u 例:請(qǐng) 在 這里 簽名 。“簽名”被識(shí)別為N
7、P,在我們的模型中,它就是VVP19調(diào)序的兩個(gè)關(guān)鍵問(wèn)題o 調(diào)序策略:利用最大熵模型決定識(shí)別出的介詞或時(shí)間地點(diǎn)短語(yǔ)是否需調(diào)序到緊跟著它們的動(dòng)詞短語(yǔ)后。o 調(diào)序規(guī)則:12122 1AXAstraightAXAXAAinverted1,APP TP SP2,AVP VVP12Xphrases between A and A20逆后向調(diào)序模型o 面向英漢翻譯任務(wù)o 介詞短語(yǔ)、時(shí)間地點(diǎn)短語(yǔ)等的識(shí)別方法同后向模型o 調(diào)序方向相反21逆后向調(diào)序模型o 調(diào)序規(guī)則121221A XAstraightAA XAA A Xinverted1,AVP VVP2,APP TP SP12Xphrases between A and A22實(shí)驗(yàn)設(shè)計(jì)與結(jié)果o baseline:u 利用我們實(shí)驗(yàn)室實(shí)現(xiàn)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)o 利用單調(diào)的解碼策略23實(shí)驗(yàn)設(shè)計(jì)與結(jié)果o 語(yǔ)料說(shuō)明:表1:漢英翻譯相關(guān)語(yǔ)料 表2:英漢翻譯相關(guān)語(yǔ)料534 6句子數(shù)訓(xùn)練語(yǔ)料漢語(yǔ)32,4626英語(yǔ)32,4626開發(fā)集漢語(yǔ)534英語(yǔ)測(cè)試集漢語(yǔ)504325 7句子數(shù)訓(xùn)練語(yǔ)料漢語(yǔ)31,1438英語(yǔ)31,1438開發(fā)集漢語(yǔ)325英語(yǔ)測(cè)試集漢語(yǔ)49824實(shí)驗(yàn)設(shè)計(jì)與結(jié)果o 實(shí)驗(yàn)結(jié)果:表3:漢英翻譯實(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 珠海格力職業(yè)學(xué)院《機(jī)器人電氣安裝調(diào)試》2023-2024學(xué)年第二學(xué)期期末試卷
- 硅湖職業(yè)技術(shù)學(xué)院《建筑小環(huán)境設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 河北中醫(yī)藥大學(xué)《交通港站與樞紐》2023-2024學(xué)年第二學(xué)期期末試卷
- 赤峰學(xué)院《給水管網(wǎng)系統(tǒng)設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山西應(yīng)用科技學(xué)院《電子商務(wù)系統(tǒng)規(guī)劃與建設(shè)》2023-2024學(xué)年第二學(xué)期期末試卷
- 河南推拿職業(yè)學(xué)院《可信計(jì)算》2023-2024學(xué)年第二學(xué)期期末試卷
- 南昌航空大學(xué)《速寫》2023-2024學(xué)年第二學(xué)期期末試卷
- 露營(yíng)計(jì)劃美術(shù)課件
- 生物統(tǒng)計(jì)學(xué)實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)
- 大班故事《小馬過(guò)河》教學(xué)解析
- 保潔員滿意度調(diào)查問(wèn)卷
- 初中英語(yǔ)1000組固定詞組及句型搭配
- 周圍神經(jīng)損傷的康復(fù)761
- 神經(jīng)系統(tǒng)的健康評(píng)估 (健康評(píng)估課件)
- 佳能700d攝影技巧
- WS/T 92-1996血中鋅原卟啉的血液熒光計(jì)測(cè)定方法
- GA/T 383-2014法庭科學(xué)DNA實(shí)驗(yàn)室檢驗(yàn)規(guī)范
- (公共政策導(dǎo)論講稿)課件
- 護(hù)理文件書寫原因魚骨圖
- 堤防工程施工規(guī)范課件
- 【教學(xué)課件】第六章 熟悉而陌生的力 第一節(jié) 力 精品課件
評(píng)論
0/150
提交評(píng)論