已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2002-12-6,統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)介,劉群 ,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯方法的特點(diǎn),利用語(yǔ)料庫(kù)作為知識(shí)來(lái)源 區(qū)別于規(guī)則方法: 無(wú)需人工編寫(xiě)規(guī)則 建立完整的統(tǒng)計(jì)模型 區(qū)別于實(shí)例方法或模板方法: 必須為整個(gè)翻譯過(guò)程建立統(tǒng)計(jì)模型,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯的分類,基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯模型 基于信源信道思想的統(tǒng)計(jì)機(jī)器翻譯模型 IBM的Peter Brown等人首先提出 目前影響最大 幾乎成為統(tǒng)計(jì)機(jī)器翻譯的同義詞 基于最大熵的統(tǒng)計(jì)機(jī)器翻譯模型 源于基于特征的自然語(yǔ)言理解 Och提出,獲ACL2002最佳論文,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯的優(yōu)缺點(diǎn),優(yōu)點(diǎn) 無(wú)需人工編寫(xiě)規(guī)則,利用語(yǔ)料庫(kù)直接訓(xùn)練得到機(jī)器翻譯系統(tǒng);(但可以使用語(yǔ)言資源) 系統(tǒng)開(kāi)發(fā)周期短; 魯棒性好; 譯文質(zhì)量好; 缺點(diǎn) 時(shí)空開(kāi)銷大; 數(shù)據(jù)稀疏問(wèn)題嚴(yán)重; 對(duì)語(yǔ)料庫(kù)依賴性強(qiáng); 算法研究不成熟。,2002-12-6,基于平行概率語(yǔ)法的統(tǒng)計(jì)機(jī)器翻譯模型,基本思想 兩種語(yǔ)言建立一套平行的語(yǔ)法規(guī)則, 規(guī)則一一對(duì)應(yīng) 兩套規(guī)則服從同樣的概率分布 句法分析的過(guò)程決定了生成的過(guò)程 主要模型 Alshawi的基于Head Transducer的MT模型 吳德愷的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT,2002-12-6,Head Transducer MT (1),Head Transducer(中心詞轉(zhuǎn)錄機(jī))是一種Definite State Automata(有限狀態(tài)自動(dòng)機(jī)) 與一般的有限狀態(tài)識(shí)別器的區(qū)別: 每一條邊上不僅有輸入,而且有輸出; 不是從左至右輸入,而是從中心詞往兩邊輸入,2002-12-6,Head Transducer MT(2),a:a,0:0,0:0,b:b,a:a,-1:+1,b:b,-1:+1,例子:一個(gè)可以將任何a,b 組成的串倒置的Head Transducer,2002-12-6,Head Transducer MT(3),所有的語(yǔ)言知識(shí)(詞典、規(guī)則)都表現(xiàn)為Head Transducer; Head Transducer可以嵌套:一個(gè)Head Transducer的邊是另一個(gè)的識(shí)別結(jié)果; 純統(tǒng)計(jì)的訓(xùn)練方法;對(duì)齊的結(jié)果是依存樹(shù):不使用詞性和短語(yǔ)類標(biāo)記; Chart句法分析器。,2002-12-6,Inversion Transduction Grammar(1),比賽星期三開(kāi)始。 The game will start on Wednesday。,2002-12-6,Inversion Transduction Grammar(2),規(guī)則形式: A B C A A x/y 產(chǎn)生源語(yǔ)言和目標(biāo)語(yǔ)言串分別為: BC BC:詞序相同 BC CB:詞序交換 x y:詞典,2002-12-6,Pattern-based CFG for MT (1),每個(gè)翻譯模板由一個(gè)源語(yǔ)言上下文無(wú)關(guān)規(guī)則和一個(gè)目標(biāo)語(yǔ)言上下文無(wú)關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成; 舉例: S:2 NP:1 歲:MP:2 了 S:be NP:1 be year:NP:2 old,2002-12-6,Pattern-based CFG for MT (2),中心詞約束:對(duì)于上下文無(wú)關(guān)語(yǔ)法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過(guò)使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞; 鏈接約束:源語(yǔ)言骨架和目標(biāo)語(yǔ)言骨架的非終結(jié)符子結(jié)點(diǎn)通過(guò)使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯。,2002-12-6,信源信道模型,假設(shè)目標(biāo)語(yǔ)言文本T是由一段源語(yǔ)言文本S經(jīng)過(guò)某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將T 還原成S,這也就是就是一個(gè)解碼的過(guò)程。 注意,源語(yǔ)言S是噪聲信道的輸入語(yǔ)言,目標(biāo)語(yǔ)言T是噪聲信道的輸出語(yǔ)言,與整個(gè)機(jī)器翻譯系統(tǒng)的源語(yǔ)言和目標(biāo)語(yǔ)言剛好相反。,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯基本方程式,P.Brown稱上式為統(tǒng)計(jì)機(jī)器翻譯基本方程式 語(yǔ)言模型:P(S) 翻譯模型:P(T|S) 語(yǔ)言模型反映“ S 像一個(gè)句子”的程度:流利度 翻譯模型反映“T像S”的程度:忠實(shí)度 聯(lián)合使用兩個(gè)模型效果好于單獨(dú)使用翻譯模型,因?yàn)楹笳呷菀讓?dǎo)致一些不好的譯文。,2002-12-6,語(yǔ)言模型與翻譯模型,考慮漢語(yǔ)動(dòng)詞“打”的翻譯:有幾十種對(duì)應(yīng)的英語(yǔ)詞譯文: 打人,打飯,打魚(yú),打毛衣,打獵,打草稿, 如果直接采用翻譯模型,就需要根據(jù)上下文建立復(fù)雜的上下文條件概率模型 如果采用信源信道思想,只要建立簡(jiǎn)單的翻譯模型,可以同樣達(dá)到目標(biāo)詞語(yǔ)選擇的效果: 翻譯模型:不考慮上下文,只考慮單詞之間的翻譯概率 語(yǔ)言模型:根據(jù)單詞之間的同現(xiàn)選擇最好的譯文詞,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯的三個(gè)問(wèn)題,三個(gè)問(wèn)題: 語(yǔ)言模型P(S)的參數(shù)估計(jì) 翻譯模型P(T|S)的參數(shù)估計(jì) 解碼(搜索)算法,2002-12-6,語(yǔ)言模型,把一種語(yǔ)言理解成是產(chǎn)生一個(gè)句子的隨機(jī)事件 語(yǔ)言模型反映的是一個(gè)句子在一種語(yǔ)言中出現(xiàn)的概率 語(yǔ)言模型 N元語(yǔ)法 P(S)=p(s0)*p(s1|s0)*p(Sn|Sn-1Sn-N) 鏈語(yǔ)法:可以處理長(zhǎng)距離依賴 PCFG(要使用句法標(biāo)記),2002-12-6,引入隱含變量:對(duì)齊A,翻譯模型與對(duì)齊,P(T|S)的計(jì)算轉(zhuǎn)化為P(T,A|S)的估計(jì) 對(duì)齊:建立源語(yǔ)言句子和目標(biāo)語(yǔ)言句子的詞與詞之間的對(duì)應(yīng)關(guān)系,2002-12-6,IBM Model,對(duì)P(T,A|S)的估計(jì) IBM Model 1僅考慮詞對(duì)詞的互譯概率 IBM Model 2加入了詞的位置變化的概率 IBM Model 3加入了一個(gè)詞翻譯成多個(gè)詞的概率 IBM Model 4 IBM Model 5,2002-12-6,IBM Model 3,對(duì)于句子中每一個(gè)英語(yǔ)單詞e,選擇一個(gè)產(chǎn)出率,其概率為n(|e); 對(duì)于所有單詞的產(chǎn)出率求和得到m-prime; 按照下面的方式構(gòu)造一個(gè)新的英語(yǔ)單詞串:刪除產(chǎn)出率為0的單詞,復(fù)制產(chǎn)出率為1的單詞,復(fù)制兩遍產(chǎn)出率為2的單詞,依此類推; 在這m-prime個(gè)單詞的每一個(gè)后面,決定是否插入一個(gè)空單詞NULL,插入和不插入的概率分別為p1和p0; 0為插入的空單詞NULL的個(gè)數(shù)。 設(shè)m為目前的總單詞數(shù):m-prime+0; 根據(jù)概率表t(f|e),將每一個(gè)單詞e替換為外文單詞f; 對(duì)于不是由空單詞NULL產(chǎn)生的每一個(gè)外語(yǔ)單詞,根據(jù)概率表d(j|i,l,m),賦予一個(gè)位置。這里j是法語(yǔ)單詞在法語(yǔ)串中的位置,i是產(chǎn)生當(dāng)前這個(gè)法語(yǔ)單詞的對(duì)應(yīng)英語(yǔ)單詞在英語(yǔ)句子中的位置,l是英語(yǔ)串的長(zhǎng)度,m是法語(yǔ)串的長(zhǎng)度; 如果任何一個(gè)目標(biāo)語(yǔ)言位置被多重登錄(含有一個(gè)以上單詞),則返回失??; 給空單詞NULL產(chǎn)生的單詞賦予一個(gè)目標(biāo)語(yǔ)言位置。這些位置必須是空位置(沒(méi)有被占用)。任何一個(gè)賦值都被認(rèn)為是等概率的,概率值為1/0。 最后,讀出法語(yǔ)串,其概率為上述每一步概率的乘積。,2002-12-6,翻譯模型的參數(shù)訓(xùn)練,Viterbi Training(對(duì)比:EM Training) 給定初始參數(shù); 用已有的參數(shù)求最好(Viterbi)的對(duì)齊; 用得到的對(duì)齊重新計(jì)算參數(shù); 回到第二步,直到收斂為止。 IBM Model 1:存在全局最優(yōu) IBM Model 25:不存在全局最優(yōu),初始值取上一個(gè)模型訓(xùn)練的結(jié)果,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯的解碼,借鑒語(yǔ)音識(shí)別的搜索算法:堆棧搜索 參數(shù)空間極大,搜索不能總是保證最優(yōu) 從錯(cuò)誤類型看,只有兩種: 模型錯(cuò)誤:概率最大的句子不是正確的句子 搜索錯(cuò)誤:沒(méi)有找到概率最大的句子 后一類錯(cuò)誤只占總錯(cuò)誤數(shù)的5%(IBM) 搜索問(wèn)題不是瓶頸,2002-12-6,IBM公司的Candide系統(tǒng) 1,基于統(tǒng)計(jì)的機(jī)器翻譯方法 分析轉(zhuǎn)換生成 中間表示是線性的 分析和生成都是可逆的 分析(預(yù)處理): 1.短語(yǔ)切分 2.專名與數(shù)詞檢測(cè) 3.大小寫(xiě)與拼寫(xiě)校正 4.形態(tài)分析 5.語(yǔ)言的歸一化,2002-12-6,IBM公司的Candide系統(tǒng) 2,轉(zhuǎn)換(解碼):基于統(tǒng)計(jì)的機(jī)器翻譯 解碼分為兩個(gè)階段: 第一階段:使用粗糙模型的堆棧搜索 輸出140個(gè)評(píng)分最高的譯文 語(yǔ)言模型:三元語(yǔ)法 翻譯模型:EM算法 第二階段:使用精細(xì)模型的擾動(dòng)搜索 對(duì)第一階段的輸出結(jié)果先擴(kuò)充,再重新評(píng)分 語(yǔ)言模型:鏈語(yǔ)法 翻譯模型:最大熵方法,2002-12-6,IBM公司的Candide系統(tǒng) 3,ARPA的測(cè)試結(jié)果 :,2002-12-6,JHU的1999年夏季研討班,由來(lái) IBM的實(shí)驗(yàn)引起了廣泛的興趣 IBM的實(shí)驗(yàn)很難重復(fù):工作量太大 目的 構(gòu)造一個(gè)統(tǒng)計(jì)機(jī)器翻譯工具(EGYPT)并使它對(duì)于研究者來(lái)說(shuō)是可用的(免費(fèi)傳播); 在研討班上用這個(gè)工具集構(gòu)造一個(gè)捷克語(yǔ)英語(yǔ)的機(jī)器翻譯系統(tǒng); 進(jìn)行基準(zhǔn)評(píng)價(jià):主觀和客觀; 通過(guò)使用形態(tài)和句法轉(zhuǎn)錄機(jī)改進(jìn)基準(zhǔn)測(cè)試的結(jié)果; 在研討班最后,在一天之內(nèi)構(gòu)造一個(gè)新語(yǔ)對(duì)的翻譯器。 JHU夏季研討班大大促進(jìn)了統(tǒng)計(jì)機(jī)器翻譯的研究,2002-12-6,EGYPT工具包,EGYPT的模塊 GIZA:這個(gè)模塊用于從雙語(yǔ)語(yǔ)料庫(kù)中抽取統(tǒng)計(jì)知識(shí)(參數(shù)訓(xùn)練) Decoder:解碼器,用于執(zhí)行具體的翻譯過(guò)程(在信源信道模型中,“翻譯”就是“解碼”) Cairo:整個(gè)翻譯系統(tǒng)的可視化界面,用于管理所有的參數(shù)、查看雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊的過(guò)程和翻譯模型的解碼過(guò)程 Whittle:語(yǔ)料庫(kù)預(yù)處理工具 EGYPT可在網(wǎng)上免費(fèi)下載,成為SMT的基準(zhǔn),2002-12-6,EGYPT工具包的性能,“當(dāng)解碼器的原形系統(tǒng)在研討班上完成時(shí),我們很高興并驚異于其速度和性能。1990年代早期在IBM公司舉行的DARPA機(jī)器翻譯評(píng)價(jià)時(shí),我們?cè)?jīng)預(yù)計(jì)只有很短(10個(gè)詞左右)的句子才可以用統(tǒng)計(jì)方法進(jìn)行解碼,即使那樣,每個(gè)句子的解碼時(shí)間也可能是幾個(gè)小時(shí)。在早期IBM的工作過(guò)去將近10年后,摩爾定律、更好的編譯器以及更加充足的內(nèi)存和硬盤(pán)空間幫助我們構(gòu)造了一個(gè)能夠在幾秒鐘之內(nèi)對(duì)25個(gè)單詞的句子進(jìn)行解碼的系統(tǒng)。為了確保成功,我們?cè)谒阉髦惺褂昧讼喈?dāng)嚴(yán)格的域值和約束,如下所述。但是,解碼器相當(dāng)有效這個(gè)事實(shí)為這個(gè)方向未來(lái)的工作預(yù)示了很好的前景,并肯定了IBM的工作的初衷,即強(qiáng)調(diào)概率模型比效率更重要。” 引自JHU統(tǒng)計(jì)機(jī)器翻譯研討班的技術(shù)報(bào)告,2002-12-6,對(duì)IBM方法的改進(jìn),IBM方法的問(wèn)題 不考慮結(jié)構(gòu):能否適用于句法結(jié)構(gòu)差別較大的語(yǔ)言? 數(shù)據(jù)稀疏問(wèn)題嚴(yán)重 后續(xù)的改進(jìn)工作 王野翊的改進(jìn) Yamada和Knight的改進(jìn) Och等人的改進(jìn),2002-12-6,王野翊的改進(jìn)(1),背景:德英口語(yǔ)翻譯系統(tǒng) 語(yǔ)法結(jié)構(gòu)差異較大 數(shù)據(jù)稀疏(訓(xùn)練數(shù)據(jù)有限) 改進(jìn):兩個(gè)層次的對(duì)齊模型 粗對(duì)齊:短語(yǔ)之間的對(duì)齊 細(xì)對(duì)齊:短語(yǔ)內(nèi)詞的對(duì)齊,2002-12-6,王野翊的改進(jìn)(2),文法推導(dǎo) 詞語(yǔ)聚類:基于互信息的方法 短語(yǔ)歸并 規(guī)則學(xué)習(xí) 優(yōu)點(diǎn) 機(jī)器翻譯的正確率提高:錯(cuò)誤率降低了11% 提高了整個(gè)系統(tǒng)的效率:搜索空間更小 緩解了因口語(yǔ)數(shù)據(jù)缺乏導(dǎo)致的數(shù)據(jù)稀疏問(wèn)題,2002-12-6,Yamada和Knight的改進(jìn)(1),基于語(yǔ)法的翻譯模型(Syntax-based TM) : 輸入是源語(yǔ)言句法樹(shù) 輸出是目標(biāo)語(yǔ)言句子 翻譯的過(guò)程: 每個(gè)內(nèi)部結(jié)點(diǎn)的子結(jié)點(diǎn)隨機(jī)地重新排列:排列概率 在每一個(gè)結(jié)點(diǎn)的左邊或右邊隨機(jī)插入一個(gè)單詞 左、右插入和不插入的概率取決于父結(jié)點(diǎn)和當(dāng)前結(jié)點(diǎn)標(biāo)記 插入哪個(gè)詞的概率只與被插入詞有關(guān),與位置無(wú)關(guān) 對(duì)于每一個(gè)葉結(jié)點(diǎn)進(jìn)行翻譯:詞對(duì)詞的翻譯概率 輸出譯文句子,2002-12-6,Yamada和Knight的改進(jìn)(2),2002-12-6,Yamada和Knight的改進(jìn)(3),2002-12-6,Yamada和Knight的改進(jìn)(4),2002-12-6,Yamada和Knight的改進(jìn)(5),訓(xùn)練 英日詞典例句2121對(duì),平均句長(zhǎng)日9.7和英6.9 詞匯量:英語(yǔ)3463,日語(yǔ)3983,大部分詞只出現(xiàn)一次 Brills POS Tagger和Collins Parser 用中心詞詞性標(biāo)記取得短語(yǔ)標(biāo)記 壓扁句法樹(shù):中心詞相同的句法子樹(shù)合并 EM訓(xùn)練20遍迭代:IBM Model 5用20遍迭代,2002-12-6,Yamada和Knight的改進(jìn)(6),困惑度Perplexity: Our Model:15.70 IBM Model:9.84 (Over-fitting),結(jié)果,2002-12-6,Och等人的改進(jìn)(1),著名語(yǔ)音翻譯系統(tǒng)VerbMobil的一個(gè)模塊 對(duì)IBM方法的改進(jìn) 基于類的模型:詞語(yǔ)自動(dòng)聚類:各400個(gè)類 語(yǔ)言模型:基于類的五元語(yǔ)法,回退法平滑 翻譯模型:基于對(duì)齊模板的方法 短語(yǔ)層次對(duì)齊 詞語(yǔ)層次對(duì)齊 短語(yǔ)劃分:動(dòng)態(tài)規(guī)劃,2002-12-6,Och等人的改進(jìn)(2),對(duì)齊模板,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(1),Och等人提出,思想來(lái)源于Papineni提出的基于特征的自然語(yǔ)言理解方法 不使用信源信道思想,直接使用統(tǒng)計(jì)翻譯模型,因此是一種直接翻譯模型 是一個(gè)比信源信道模型更具一般性的模型,信源信道模型是其一個(gè)特例 與一般最大熵方法的區(qū)別:使用連續(xù)量作為特征,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(2),假設(shè)e、f是機(jī)器翻譯的目標(biāo)語(yǔ)言和源語(yǔ)言句子,h1(e,f), , hM(e,f)分別是e、f上的M個(gè)特征, 1, ,M是與這些特征分別對(duì)應(yīng)的M個(gè)參數(shù), 那么直接翻譯概率可以用以下公式模擬:,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(3),對(duì)于給定的f,其最佳譯文e可以用以下公式表示:,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(4),取以下特征和參數(shù)時(shí)等價(jià)于信源信道模型: 僅使用兩個(gè)特征 h1(e,f)=p(e) h2(e,f)=p(f|e) 121,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(5),參數(shù)訓(xùn)練,最優(yōu)化后驗(yàn)概率準(zhǔn)則:區(qū)別性訓(xùn)練 這個(gè)判斷準(zhǔn)則是凸的,存在全局最優(yōu) 考慮多個(gè)參考譯文:,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(6),Och等人的實(shí)驗(yàn)(1):方案 首先將信源信道模型中的翻譯模型換成反向的翻譯模型,簡(jiǎn)化了搜索算法,但翻譯系統(tǒng)的性能并沒(méi)有下降; 調(diào)整參數(shù)1和2,系統(tǒng)性能有了較大提高; 再依次引入其他一些特征,系統(tǒng)性能又有了更大的提高。,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(7),Och等人的實(shí)驗(yàn)(2):其他特征 句子長(zhǎng)度特征(WP):對(duì)于產(chǎn)生的每一個(gè)目標(biāo)語(yǔ)言單詞進(jìn)行懲罰; 附件的語(yǔ)言模型特征(CLM):一個(gè)基于類的語(yǔ)言模型特征; 詞典特征(MX):計(jì)算給定的輸入輸出句子中有多少詞典中存在的共現(xiàn)詞對(duì)。,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(8),Och等人的實(shí)驗(yàn)(2):實(shí)驗(yàn)結(jié)果,2002-12-6,基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型(9),經(jīng)典的信源信道模型只有在理想的情況下才能達(dá)到最優(yōu),對(duì)于簡(jiǎn)化的語(yǔ)言模型和翻譯模型,取不同的參數(shù)值實(shí)際效果更好; 最大熵方法大大擴(kuò)充了統(tǒng)計(jì)機(jī)器翻譯的思路; 特征的選擇更加靈活。,2002-12-6,統(tǒng)計(jì)機(jī)器翻譯的應(yīng)用,傳統(tǒng)機(jī)器翻譯的應(yīng)用領(lǐng)域 跨語(yǔ)言檢索 聶建云使用IBM Model 1進(jìn)行CLIR 機(jī)器翻譯系統(tǒng)的快速開(kāi)發(fā) 針對(duì)未知語(yǔ)言 快速開(kāi)發(fā),2002-12-6,總結(jié),IBM當(dāng)年的工作是有一定超前性的 雖然很多人懷疑統(tǒng)計(jì)方法在機(jī)器翻譯中能否取得成功,但現(xiàn)在這已不再是問(wèn)題 基于平行語(yǔ)法的機(jī)器翻譯方法總體上不成功 基于最大熵的方法為統(tǒng)計(jì)機(jī)器翻譯方法開(kāi)辟了一個(gè)新天地,2002-12-6,我的工作設(shè)想,采用基于最大熵的統(tǒng)計(jì)機(jī)器翻譯模型; 提出基于模板的統(tǒng)計(jì)翻譯模型: 句法樹(shù)對(duì)齊 抽取翻譯模板 基于模板翻譯模型 其它特征 漢語(yǔ)詞法分析 漢語(yǔ)句法分析,2002-12-6,參考文獻(xiàn)(1),Al-Onaizan 1999 Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD. Alshawi 1998 Alshawi, H., Bangalore, S. and Douglas, S. Automatic Acquisition of Hierarchical transduction models for machine translation, Proc. 36th Conf. Association of Computational Linguistics, Montreal, Canada, 1998. Berger 1994 Berger, A., P. Brown, S. Della Pietra, V. Della Pietra, J. Gillett, J. Lafferty, R. Mercer, H. Printz, L Ures, The Candide System for Machine Translation, Proceedings of the DARPA Workshop on Human Language Technology (HLT) Berger 1996 A. L. Berger, S. A. Della Pietra, and V. J. Della Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39-72,March 1996. Brown 1990 Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990,2002-12-6,參考文獻(xiàn)(2),Brown 1993 Peter. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer, The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, Vol 19, No.2 ,1993 Ker 1997 Sue J. Ker, Jason S. Chang, A Class-based Approach to Word Alignment, Computational Linguistics, Vol. 23, No. 2, Page 313-343, 1997 Knight 1999 Kevin Knight, A Statistical Machine Translation Tutorial Workbook. unpublished, prepared in connection with the JHU summer workshop, August 1999. (available at /ws99/projects/mt/wkbk.rtf). Och 1998 Franz Josef Och and Hans Weber. Improving statistical natural language translation with categories and rules. In Proc. Of the 35th Annual Conf. of the Association for Computational Linguistics and the 17th Int. Conf. on Computational Linguistics, pages 985-989, Montreal, Canada, August 1998. Och 1999 F. J. Och, C. Tillmann, and H. Ney. Improved alignment models for statistical machine translation. In Proc. of the Joint SIGDAT Conf. On Empirical Methods in Natural Language Processing and Very Large Corpora, pages 20-28, University of Maryland, College Park, MD, June 1999.,2002-12-6,參考文獻(xiàn)(3),Och 2001 Franz Josef Och, Hermann Ney. What Can Machine Translation Learn from Speech Recognition? In: proceedings of MT 2001 Workshop: Towards a Road Map for MT, pp. 26-31, Santiago de Compostela, Spain, September 2001. Och 2002 Franz Josef Och, Hermann Ney, Discriminative Training and Maximum Entropy Models for Statistical Machine Translation, ACL2002 Papineni 1997 K. A. Papineni, S. Roukos, and R. T. Ward. 1997. Feature-based language understanding. In European Conf. on Speech Communication and Technology, pages 1435-1438, Rhodes, Greece, September. Papineni 1998 K. A. Papineni, S. Roukos, and R. T. Ward. 1998. Maximum likelihood and discriminative training of direct translation models. In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing, pages 189-192, Seattle, WA, May. Takeda 1996 Koichi Taked
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《留置針使用規(guī)范》課件
- 《小數(shù)數(shù)位順序表》課件
- 八下期中測(cè)試卷01【測(cè)試范圍:第1-11課】(原卷版)
- 旅游行業(yè)導(dǎo)游講解培訓(xùn)總結(jié)
- 2006年江蘇高考語(yǔ)文真題及答案
- 年度目標(biāo)設(shè)定與實(shí)現(xiàn)路徑計(jì)劃
- 幼兒園工作總結(jié)用心呵護(hù)溫馨成長(zhǎng)
- 《焊工基礎(chǔ)知識(shí)》課件
- 2023年-2024年新員工入職前安全教育培訓(xùn)試題附參考答案(奪分金卷)
- 廚師個(gè)人述職報(bào)告15篇
- (正式版)SHT 3046-2024 石油化工立式圓筒形鋼制焊接儲(chǔ)罐設(shè)計(jì)規(guī)范
- 游戲綜合YY頻道設(shè)計(jì)模板
- 《護(hù)理交接班制度》課件
- 重慶九龍坡區(qū)2022-2023學(xué)年高一物理第一學(xué)期期末質(zhì)量跟蹤監(jiān)視試題含解析
- 食材配送投標(biāo)服務(wù)方案
- 建筑施工現(xiàn)場(chǎng)農(nóng)民工維權(quán)告示牌
- 醫(yī)療醫(yī)學(xué)醫(yī)生護(hù)士工作PPT模板
- 口腔門(mén)診規(guī)章制度.-口腔診所12個(gè)規(guī)章制度
- ppt模板:創(chuàng)意中國(guó)風(fēng)古風(fēng)水墨山水通用模板課件
- 紡紗學(xué)-ppt課件
- (高清版)嚴(yán)寒和寒冷地區(qū)居住建筑節(jié)能設(shè)計(jì)標(biāo)準(zhǔn)JGJ26-2018
評(píng)論
0/150
提交評(píng)論