版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Machine Translation黃宗文16721539CONTENTSPART ONE 基本概念PART TWO 發(fā)展歷史PART THREE 翻譯方法PART FOUR 總結(jié)展望基本概念機(jī)器翻譯 (machine translation, MT) 是利用計(jì)算機(jī)把一種語(yǔ)言(源語(yǔ)言, source language) 翻譯成另一種語(yǔ)言(目標(biāo)語(yǔ)言, target language) 的一門學(xué)科和技術(shù)?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機(jī)器翻譯MT, the abbreviation of machine translation, is a sub-fiel
2、d of computational linguistics that investigates the use of software to translate text or speech from one natural language to another.機(jī)器翻譯的縮寫是計(jì)算語(yǔ)言學(xué)的一個(gè)子領(lǐng)域,它研究軟件將文本或語(yǔ)言從一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言的用法?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望Machine Translation機(jī)器翻譯機(jī)器翻譯的研究是建立在語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語(yǔ)言學(xué)家提供適合與計(jì)算機(jī)進(jìn)行加工的詞典和語(yǔ)法規(guī)則,數(shù)學(xué)家把語(yǔ)言學(xué)家提供的材料形式
3、化和代碼化,計(jì)算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計(jì)。發(fā)展歷史機(jī)器翻譯的發(fā)展經(jīng)歷了興起、低落和重新興盛的曲折歷程。在昌盛的時(shí)候,人們?yōu)檠芯砍晒木始姵屎蛻?yīng)用的成功而歡呼,即使在低潮時(shí),人們也在不斷的反思,為重新發(fā)展積蓄力量?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1954美國(guó)喬治敦大學(xué)在IBM公司協(xié)同下,用IBM-701計(jì)算機(jī)首次完成了英俄機(jī)器翻譯實(shí)驗(yàn),拉開了機(jī)器翻譯的序幕。1956中國(guó)把機(jī)器翻譯列入了全國(guó)科學(xué)工作發(fā)展規(guī)劃,課題名稱是“機(jī)器翻譯、自然語(yǔ)言翻譯規(guī)則的建設(shè)和自然語(yǔ)言的數(shù)學(xué)理論”。開創(chuàng)期從20世紀(jì)50年代開始到20世紀(jì)60年代前半期,美國(guó)和前蘇聯(lián)兩個(gè)超級(jí)大國(guó)處于軍事、政
4、治、經(jīng)濟(jì)目的,均對(duì)機(jī)器翻譯項(xiàng)目提供了大量的資金支持,而歐洲國(guó)家由于地緣政治和經(jīng)濟(jì)的需要也對(duì)機(jī)器翻譯研究給予了相當(dāng)大的重視,機(jī)器翻譯一時(shí)出現(xiàn)熱潮?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望1964ALPAC報(bào)告1966機(jī)器翻譯進(jìn)入蕭條期。文革1979語(yǔ)言自動(dòng)處理咨詢委員會(huì)成立1964年,為了對(duì)機(jī)器翻譯的研究進(jìn)展作出評(píng)價(jià),美國(guó)科學(xué)院成立了語(yǔ)言自動(dòng)處理咨詢委員會(huì)(簡(jiǎn)稱ALPAC委員會(huì)),開始了為期兩年的綜合調(diào)查分析和測(cè)試。1966年11月,該委員會(huì)公布了一個(gè)題為語(yǔ)言與機(jī)器的報(bào)告該報(bào)告全面否定了機(jī)器翻譯的可行性,并建議停止對(duì)機(jī)器翻譯項(xiàng)目的資金支持。受挫期進(jìn)入70年代后,隨著科學(xué)技術(shù)的發(fā)展和各國(guó)科技情報(bào)交流的日趨
5、頻繁,國(guó)與國(guó)之間的語(yǔ)言障礙顯得更為嚴(yán)重,傳統(tǒng)的人工作業(yè)方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,迫切的需要計(jì)算機(jī)來(lái)從事翻譯工作。同時(shí),計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)研究的發(fā)展,特別是計(jì)算機(jī)硬件技術(shù)的大幅度提高以及人工智能在自然語(yǔ)言處理上的應(yīng)用,從技術(shù)層面推動(dòng)了機(jī)器翻譯研究的復(fù)蘇。恢復(fù)期EURPOTRA系統(tǒng)出現(xiàn)基本概念發(fā)展歷史翻譯方法總結(jié)展望201690年代Internet普遍應(yīng)用機(jī)器翻譯迅猛發(fā)展,商用機(jī)器翻譯軟件翻入實(shí)用化階段。新時(shí)期隨著Internet的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國(guó)際社會(huì)交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長(zhǎng)的翻譯需求,人們對(duì)于機(jī)器翻譯的需求空前增長(zhǎng),機(jī)器翻譯迎來(lái)了一個(gè)
6、新的發(fā)展機(jī)遇。國(guó)際性的關(guān)于機(jī)器翻譯研究的會(huì)議頻繁召開,中國(guó)也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,例如“譯星” 、 “雅信” 、 “通譯” 、 “華建”等。在市場(chǎng)需求的推動(dòng)下,商用機(jī)器翻譯系統(tǒng)邁入了實(shí)用化階段,走進(jìn)了市場(chǎng),來(lái)到了用戶面前。翻譯方法機(jī)器翻譯的處理對(duì)象是自然語(yǔ)言,而人類對(duì)于語(yǔ)言認(rèn)知的過(guò)程還未研究清楚,因此,要實(shí)現(xiàn)理想、高質(zhì)量的機(jī)器翻譯至少目前還有較大的距離。基本概念發(fā)展歷史翻譯方法總結(jié)展望在機(jī)器翻譯領(lǐng)域,機(jī)器翻譯方法可以看成是兩大類共四種方法,兩大類是:基于規(guī)則一類;基于語(yǔ)料庫(kù)一類。顯而易見(jiàn),基于規(guī)則一類包括了基于轉(zhuǎn)換的機(jī)器翻譯方法和基于中間語(yǔ)言的機(jī)器翻譯方法;基于語(yǔ)
7、料庫(kù)一類包括了基于統(tǒng)計(jì)的機(jī)器翻譯方法和基于實(shí)例的機(jī)器翻譯方法?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望基于實(shí)例的機(jī)器翻譯基于實(shí)例的翻譯方法不經(jīng)過(guò)深層分析,僅僅通過(guò)已有的經(jīng)驗(yàn)知識(shí),通過(guò)類比原理進(jìn)行翻譯。其翻譯過(guò)程是首先將源語(yǔ)言正確分解為句子,再分解為短語(yǔ)碎片,接著通過(guò)類比的方法把這些短語(yǔ)碎片譯成目標(biāo)語(yǔ)言短語(yǔ),最后把這些短語(yǔ)合并成長(zhǎng)句?;谥虚g語(yǔ)言的機(jī)器翻譯基于中間語(yǔ)言的翻譯方法是對(duì)源語(yǔ)言進(jìn)行分析以后產(chǎn)生一種稱為中間語(yǔ)言的表示形式,然后直接由這種中間語(yǔ)言的表示形式生成目標(biāo)語(yǔ)言。所謂中間語(yǔ)言就是自然語(yǔ)言的計(jì)算機(jī)表示形式的系統(tǒng)化,它試圖創(chuàng)造出一種獨(dú)立于各種自然語(yǔ)言,同時(shí)又能表示各種自然語(yǔ)言的人工語(yǔ)言?;诮y(tǒng)計(jì)
8、的機(jī)器翻譯基于統(tǒng)計(jì)的機(jī)器翻譯方法把機(jī)器翻譯看成是一個(gè)信息傳輸過(guò)程,用一種信道模型對(duì)機(jī)器翻譯進(jìn)行解釋。這種思想認(rèn)為,源語(yǔ)言句子到目標(biāo)語(yǔ)言句子的翻譯是一個(gè)概率問(wèn)題,任何一個(gè)目標(biāo)語(yǔ)言句子都有可能是任何一個(gè)源語(yǔ)言句子的譯文,只是概率不同,機(jī)器翻譯的任務(wù)就是找到概率最大的句子?;谵D(zhuǎn)換的機(jī)器翻譯基于轉(zhuǎn)換的翻譯方法就是自動(dòng)實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言的轉(zhuǎn)換,它采取了一系列的分析和轉(zhuǎn)換的生成層次,使一個(gè)源語(yǔ)言句子經(jīng)過(guò)不同的中間表達(dá)形式,最終達(dá)到目標(biāo)語(yǔ)言句子的表示。其目的是盡可能地加深對(duì)源語(yǔ)言的理解,生成盡可能恰當(dāng)?shù)哪繕?biāo)語(yǔ)言形式。基本概念發(fā)展歷史翻譯方法總結(jié)展望基于統(tǒng)計(jì)的機(jī)器翻譯基于統(tǒng)計(jì)的機(jī)器翻譯方法主要分為三類:第
9、一類是基于詞的方法,第二類是基于短語(yǔ)的方法,第三類是基于句法的方法。基于句法的模型是最復(fù)雜的、也是翻譯質(zhì)量最好的。基于統(tǒng)計(jì)的機(jī)器翻譯方法可以簡(jiǎn)單的這樣看:將原始的某個(gè)句子按詞折開,然后全部單詞存儲(chǔ);翻譯則是取出,按概率統(tǒng)計(jì)的方法重組句子,這樣的句子就是統(tǒng)計(jì)方法的翻譯結(jié)果。 為了提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的準(zhǔn)確性,普遍應(yīng)用海量語(yǔ)料庫(kù)訓(xùn)練出大規(guī)模語(yǔ)言模型和翻譯模型。而模型的不斷增大,給統(tǒng)計(jì)機(jī)器翻譯帶來(lái)了突出的計(jì)算性能問(wèn)題,是的現(xiàn)有的單機(jī)串行化翻譯處理難以在較快時(shí)間內(nèi)完成計(jì)算?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望基于內(nèi)存分布的層次短語(yǔ)機(jī)器翻譯并行化算法基本概念發(fā)展歷史翻譯方法總結(jié)展望這種工作方式基于MapRe
10、duce秉性框架實(shí)現(xiàn),由MapReduce框架將文章分割為句子組,每個(gè)map端負(fù)責(zé)處理一個(gè)句子組,map端將會(huì)調(diào)用解碼器完成翻譯任務(wù),最后reduce端匯總結(jié)果。這個(gè)并行框架充分利用了集群的大容量分布式內(nèi)存,大幅提高了并發(fā)度,而且可以在需要時(shí)增加集群節(jié)點(diǎn)以擴(kuò)充系統(tǒng),因而具有很強(qiáng)的系統(tǒng)擴(kuò)展性,很好地克服了單機(jī)解碼器系統(tǒng)難以擴(kuò)展的缺陷。采用分布式內(nèi)存數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)后,由于每個(gè)節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)量變?。榭倲?shù)據(jù)量的N分之一),且各節(jié)點(diǎn)可以同時(shí)進(jìn)行檢索,因此查表速度能夠變快?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望33.285.186.412.211.111.221.231.271.530246810121414
11、8164080Translation Time per Sentence/sThreads在單線程情況下,待機(jī)解碼器平均翻譯每個(gè)句子需要3s;我們的并行化解碼器平均每句消耗約1.1s,解碼速度是單機(jī)的2.7倍。在其他各個(gè)并發(fā)度級(jí)別下,并行化解碼器平均每句的性能也都同樣保持了領(lǐng)先。計(jì)算性能對(duì)比基本概念發(fā)展歷史翻譯方法總結(jié)展望2633720569351268978267.5134.869.733.505001000150020002500300014816408010-3*Translation job Time Cost/sThreads隨著線程數(shù)量增加,單機(jī)解碼器性能下降較快,在80線程時(shí)已經(jīng)
12、無(wú)法工作;并行化解碼器在80個(gè)線程時(shí)仍保持較好的性能。擴(kuò)展性對(duì)比sparkMapReduce大數(shù)據(jù)處理后起之秀spark得益于其在迭代計(jì)算機(jī)和內(nèi)存計(jì)算上的優(yōu)勢(shì),可以自動(dòng)調(diào)度復(fù)雜的計(jì)算任務(wù),避免中間結(jié)果的磁盤讀寫和資源申請(qǐng)過(guò)程,非常適合數(shù)據(jù)挖掘算法。Mapreduce為大數(shù)據(jù)挖掘提供了有力的支持,但是復(fù)雜的挖掘算法往往需要多個(gè)mapreduce所也才能完成,多個(gè)作業(yè)之間存在著冗余的磁盤讀寫開銷和多次自愿申請(qǐng)過(guò)程,使得基于mapreduce的算法實(shí)現(xiàn)存在嚴(yán)重的性能問(wèn)題。基本概念發(fā)展歷史翻譯方法總結(jié)展望總結(jié)展望機(jī)器翻譯技術(shù)在經(jīng)濟(jì)發(fā)展和社會(huì)生活中日趨重要, 對(duì)加速和擴(kuò)展世界范圍內(nèi)的信息傳播具有深遠(yuǎn)意義
13、. 機(jī)器翻譯是一個(gè)真正的科學(xué)與技術(shù)相結(jié)合的多學(xué)科產(chǎn)物. 機(jī)器翻譯的研究必將推動(dòng)這些學(xué)科的迅速發(fā)展?;靖拍畎l(fā)展歷史翻譯方法總結(jié)展望人工翻譯機(jī)器翻譯1、一句一句處理,并不參考上下文;2、對(duì)源語(yǔ)言的分析只是求解句法關(guān)系,完全不是意義上的理解譯文轉(zhuǎn)換是基于源語(yǔ)言的句法結(jié)構(gòu)的,受源語(yǔ)言的句法結(jié)構(gòu)的束縛;3、翻譯只是句法結(jié)構(gòu)和詞匯的機(jī)械對(duì)應(yīng)。1、先通讀全文,前后照應(yīng);2、譯文基于對(duì)源語(yǔ)言的理解,不受源語(yǔ)言的句法結(jié)構(gòu)的束縛;3、人工翻譯是一個(gè)在創(chuàng)造的過(guò)程。基本概念發(fā)展歷史翻譯方法總結(jié)展望明月明月幾時(shí)有,把酒問(wèn)青幾時(shí)有,把酒問(wèn)青天天MT: When the moon is, wine ask blue sk
14、y .HT: When will the moon be clear and bright? With a cup of wine in my hand, I ask the blue sky.滿地滿地黃花堆積,憔悴損,黃花堆積,憔悴損,而今有誰(shuí)堪摘?而今有誰(shuí)堪摘?MT: Everywhere yellow flower accumulation gaunt who can pick the loss now ?HT: The ground is covered with yellow flowers faded and fallen in showers. Who will pick the
15、m up now?別狗咬呂洞賓,不識(shí)別狗咬呂洞賓,不識(shí)好人心。好人心。MT: The dog bite lv dongbin does not know good hearts. HT: Dont bite the hand that feeds you.MT的限制:人名翻譯 、習(xí)語(yǔ)翻譯、文學(xué)作品翻譯、成語(yǔ)典故翻譯機(jī)器翻譯還不成熟(in state-of-the-art),需要的是人與系統(tǒng)的配合,而不是有意為難,輔助機(jī)器翻譯可以大大減輕人的負(fù)擔(dān)。我們我們需要的是計(jì)算機(jī)幫需要的是計(jì)算機(jī)幫助人類完成某些翻譯工助人類完成某些翻譯工作,而不是完全替代人,作,而不是完全替代人,人與機(jī)器翻譯系統(tǒng)之間人與機(jī)器翻譯系統(tǒng)之間應(yīng)該是互補(bǔ)的關(guān)系,而應(yīng)該是互補(bǔ)的關(guān)系,而不是相互競(jìng)爭(zhēng)。不是相互競(jìng)爭(zhēng)。目前目前機(jī)器翻譯的價(jià)值不機(jī)器翻譯的價(jià)值不在于它可以取代翻譯專在于它可以取代翻譯專家,而在于它可在一個(gè)家,而在于它可在一個(gè)完整翻譯過(guò)程的部分環(huán)完整翻譯過(guò)程的部分環(huán)節(jié)中有所貢獻(xiàn)節(jié)中有所貢獻(xiàn)。雖然雖然機(jī)器翻譯的可理解性和忠實(shí)度機(jī)器翻譯的可理解性和忠實(shí)度還不夠理想還不夠理想 , ,但倘若數(shù)學(xué)、計(jì)算
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 酒店品牌推廣總結(jié)
- 軟件行業(yè)采購(gòu)管理心得
- 手機(jī)數(shù)碼銷售員工作總結(jié)
- 金融規(guī)劃行業(yè)財(cái)務(wù)規(guī)劃培訓(xùn)體驗(yàn)
- 云南省昆明市九縣區(qū)人教版(PEP)2023-2024學(xué)年六年級(jí)上學(xué)期英語(yǔ)期末質(zhì)量檢測(cè)試卷
- 2021年廣東省中山市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2022年四川省自貢市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2021年江蘇省蘇州市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2023年浙江省紹興市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 簡(jiǎn)單辭職報(bào)告怎么寫
- 農(nóng)業(yè)機(jī)械控制系統(tǒng)硬件在環(huán)測(cè)試規(guī)范
- 翁潭電站大王山輸水隧洞施工控制網(wǎng)設(shè)計(jì)說(shuō)明書
- 隆胸術(shù)培訓(xùn)課件
- 鋼筋焊接培訓(xùn)課件
- 行政內(nèi)勤培訓(xùn)課件
- 酒吧、夜店、KTV員工管理手冊(cè)(2022版)
- 化纖企業(yè)(化學(xué)纖維紡織企業(yè))安全生產(chǎn)操作規(guī)程
- 重大事故隱患專項(xiàng)排查檢查表
- 中建住宅二次結(jié)構(gòu)專項(xiàng)施工方案
- 紅薯淀粉加工項(xiàng)目可行性研究報(bào)告
- 《工程圖學(xué)基礎(chǔ)教程(第4版)》 課件 第7章 零件圖
評(píng)論
0/150
提交評(píng)論