中國經(jīng)營報:谷歌翻譯的中國基因_第1頁
中國經(jīng)營報:谷歌翻譯的中國基因_第2頁
中國經(jīng)營報:谷歌翻譯的中國基因_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中國經(jīng)營報:谷歌翻譯的中國基因

不久前,Google翻譯發(fā)布了iPhone和Android版本,讓用戶能夠隨時使用翻譯服務(wù),更加輕松便捷地跨越語言障礙。該手機(jī)應(yīng)用可以識別15種語言的語音輸入,朗讀或全屏顯示23種語言的翻譯結(jié)果。對于非拉丁字母語言,例如中文和日文,應(yīng)用將標(biāo)注拼音或羅馬字讀音,便于非母語用戶讀出。與Google翻譯的桌面應(yīng)用相同,移動翻譯也能夠翻譯58種語言書寫的字詞和短語。移動翻譯設(shè)置了一些常用內(nèi)容的翻譯收藏,即便在沒有互聯(lián)網(wǎng)連接的情況下也可讀取,實時翻譯則需通過WiFi或移動網(wǎng)絡(luò)連入Google云端獲取結(jié)果。這款產(chǎn)品對于很多用戶來說非常方便,如果身在國外,不知道某句話用外語該怎么說,只需打開程序,把想說的話念給手機(jī),然后點(diǎn)擊“翻譯”,手機(jī)就可以把譯文朗讀出來?;诮y(tǒng)計的機(jī)器翻譯Google翻譯產(chǎn)品在全球只有兩個團(tuán)隊,一個是在Google總部,另一個就在中國上海?!癎oogle翻譯在上海成立,主要因為當(dāng)初有兩個人喜歡做翻譯,其中一個就是尹俊(Google翻譯產(chǎn)品研發(fā)領(lǐng)導(dǎo),作者注),他可謂是Google上海翻譯團(tuán)隊的創(chuàng)始人。通過美國翻譯團(tuán)隊開展合作,上海的翻譯隊伍越來越大,現(xiàn)在已經(jīng)達(dá)到十幾人的規(guī)模。目前美國總部的翻譯團(tuán)隊主要負(fù)責(zé)后臺的平行語料數(shù)據(jù),上海翻譯團(tuán)隊負(fù)責(zé)手機(jī)、桌面電腦翻譯應(yīng)用的開發(fā)。Google的創(chuàng)新模式常常是自下而上的,工程師可以在工作中發(fā)揮個人興趣,如果做出成績,就有可能凝聚逐漸擴(kuò)大成一個團(tuán)隊?!痹陉愑簳N看來,上海團(tuán)隊的建立要?dú)w功于Google的創(chuàng)新模式?,F(xiàn)今大部分的商業(yè)翻譯系統(tǒng)都是屬于規(guī)則法機(jī)器翻譯,需要做大量詞匯與語法的工作。Google翻譯則采取基于統(tǒng)計的機(jī)器翻譯,這是IBM科學(xué)家在1993年提出的理念,具有劃時代的意義。Google現(xiàn)在支持58種語言的互譯,翻譯團(tuán)隊的成員們掌握的語言遠(yuǎn)少于這個數(shù)字,這也是統(tǒng)計翻譯的魅力所在。統(tǒng)計翻譯的具體原理是,先往計算機(jī)里輸入大量的文字文本,搭建涵蓋源語言和目標(biāo)語言的平行語料庫,構(gòu)建統(tǒng)計翻譯模型。這些模型可以幫助Google在源語言與目標(biāo)語言中尋找各種相互關(guān)系,得出某些特定單詞、短語或文件的最佳翻譯結(jié)果。針對某種特定語言,Google翻譯分析的翻譯文檔越多,譯文的質(zhì)量就越高。據(jù)陳雍昇介紹,Google翻譯主要有四個步驟:首先,系統(tǒng)需要將源語言句子切分為短語,這是一門復(fù)雜的學(xué)問。英文單詞之間有空格,中文句子則不然。由于統(tǒng)計翻譯系統(tǒng)本身并不具備理解自然語言的能力,在面對“汽水不如果汁好喝”這個句子,“不如”和“如果”都是一種劃分可能;其次,不同語系的組織形式有很大差別,研發(fā)人員必須通過對平行語料的分析來處理詞匯的排序問題。分析平行語料是建模過程,翻譯則是利用模型的過程,前者的算法往往比后者復(fù)雜;然后,系統(tǒng)需要分辨同一個詞的不同形態(tài),例如過去式和現(xiàn)在分詞,這是一個判斷的過程;最后,將構(gòu)成目標(biāo)語言的詞匯合理聯(lián)結(jié)起來。Google目前能夠翻譯58種語言,如果按排列組合來算,理論上需對應(yīng)近3000種平行語料,事實上Google翻譯的語料庫遠(yuǎn)沒這么多,所以很多語言之間的翻譯是經(jīng)過“橋接”的,這在機(jī)器翻譯中是一種常見技巧。打個形象點(diǎn)的比方吧,目前法英互譯的質(zhì)量肯定比法漢互譯要好,如果遇到法譯漢的需要,翻譯系統(tǒng)可能采取迂回戰(zhàn)術(shù),先將法語翻譯成英語,再從英語到漢語。比如Google翻譯中關(guān)于泰文和希伯來文的平行語料較少,但卻能夠提供這兩種語言的翻譯,據(jù)陳雍昇透露,“這種偏僻語系的互譯十之八九是經(jīng)過橋接的”?!疤岣叻g質(zhì)量是一個多管齊下的技術(shù)。翻譯的質(zhì)量最主要的還是需要收集平行語料,此外,如果在建模方面可以找到更好的匹配算法或拆分算法,雙管齊下效果更好?!标愑簳N打了個巧妙的比方,“平行語料好比食材,只有材料夠好,廚師的手藝也夠好,而且也有一些調(diào)味料的情況下,才能做出美味的菜肴?!币苿臃g——“20%項目”的產(chǎn)物Google有個20%項目,允許員工拿出20%的工作時間,用來從事本職工作以外的項目,這樣就能開發(fā)出更多種類的產(chǎn)品,移動翻譯可以算作Google“20%項目”的產(chǎn)物。“最初移動這方面有幾個因素,第一個就是因為大家都說移動是未來,這我相信。第二,發(fā)生了一個小故事——有個同事做出了手機(jī)網(wǎng)頁版的移動翻譯,并且發(fā)布出去,結(jié)果那段時間我們的流量呈幾何倍數(shù)的瘋漲?!边@使陳雍昇意識到移動搜索的市場需求之大。他開始在上海研發(fā)中心游說,問誰愿意做這個項目的義工。朱文章(Google翻譯iPhone主導(dǎo)工程師,作者注)對手機(jī)應(yīng)用很感興趣,就在正活之外進(jìn)行iPhone版Google翻譯的研發(fā),只用兩天時間就做出了產(chǎn)品雛形。“我們第一個手機(jī)翻譯產(chǎn)品的就是這樣誕生的,”談起移動翻譯,陳雍昇的自豪之情溢于言表。上海團(tuán)隊、美國團(tuán)隊對于產(chǎn)品雛形都很滿意,并且為朱文章加撥了人力支持。大概兩三個季度后,由朱文章領(lǐng)導(dǎo)開發(fā)的iPhone版Google翻譯正式發(fā)布。在超過一周的時間里,它一直是全球排名第一的免費(fèi)軟件。理論上來講,Google能在電腦端能夠多少語種的互譯,也能在手機(jī)端提供那么多。而在實際情況中,移動翻譯提供多少語種的語音翻譯,取決于其支持多少語種的語音識別。語音識別需要龐大的數(shù)據(jù)來源,才能建立很好的分辨模型,對此Google早有準(zhǔn)備。2007年,Google開始提供GOOG-411)處理語音搜索。雖然GOOG-411并非Google的重要收入來源,但它為研發(fā)人員收集了海量數(shù)據(jù),使之能夠不斷完善語音識別算法。一年后Google推出的語音搜索,足以比肩其他公司歷時數(shù)年才搭建起來的類似系統(tǒng)。據(jù)Google稱,這款語音搜索服務(wù)為GoogleAndroid和蘋果iPhone等智能手機(jī)平臺上“更多富有野心的服務(wù)提供了基礎(chǔ)”。例如,裝有Froyo軟件的Android用戶可通過語音控制手機(jī)的絕大部分功能,而Google推出的iPhone應(yīng)用也內(nèi)置了語音識別功能。Google2010年10月關(guān)閉了這項服務(wù),并在聲明中表示,計劃將相關(guān)資源投入到“使下一代Google產(chǎn)品和服務(wù)支持多語種語音的技術(shù)”中,我們現(xiàn)在看到的語音翻譯即是成果之一。可以預(yù)見,語音識別未來將成為Google更多服務(wù)的特性。雖然移動翻譯接收的源語言多數(shù)具有口語化的特點(diǎn),在陳雍昇看來,這對翻譯質(zhì)量并不會造成太大影響。首先,用戶使用語音翻譯時,對自己要講的內(nèi)容一般都有明確的認(rèn)識,所以語句的流暢程度跟桌面翻譯的差異不大。其次,人們使用語音翻譯時的說話方式不同于演講,多數(shù)情況下語句簡短,對于語音翻譯來說不難應(yīng)對。“二者最大的差異在于用戶體驗方面。電腦鍵盤使用很方便,而手機(jī)鍵盤很小,我們必須想辦法方便用戶輸入源語言。此外,語音翻譯的使用環(huán)境可能跟辦公室有較大區(qū)別,相對于口語中偶爾出現(xiàn)的停頓和重復(fù)現(xiàn)象,外界雜音對翻譯質(zhì)量的影響更大,所以我們得過濾不必要的訊息?!边^濾雜音的任務(wù)多由翻譯程序完成,研發(fā)人員可以設(shè)定一個音量閾值,將低于此值的雜音篩掉。此外,如果語言出現(xiàn)停頓,將其作為句子結(jié)束還是“正在考慮、尚未說完”來處理,也是翻譯程序可以決定和控制的。再者,“如果用戶說錯了一兩個字該怎么處理?讓其重說一遍還是直接修改那一兩個字,這些用戶體驗方面的問題,都可以通過完善翻譯程序來提升。”陳雍昇表示,“除了之前的語音搜索,Google

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論