![計算機(jī)輔助翻譯_第1頁](http://file4.renrendoc.com/view/fa154a0ad9a7437f5465cf621391ff89/fa154a0ad9a7437f5465cf621391ff891.gif)
![計算機(jī)輔助翻譯_第2頁](http://file4.renrendoc.com/view/fa154a0ad9a7437f5465cf621391ff89/fa154a0ad9a7437f5465cf621391ff892.gif)
![計算機(jī)輔助翻譯_第3頁](http://file4.renrendoc.com/view/fa154a0ad9a7437f5465cf621391ff89/fa154a0ad9a7437f5465cf621391ff893.gif)
![計算機(jī)輔助翻譯_第4頁](http://file4.renrendoc.com/view/fa154a0ad9a7437f5465cf621391ff89/fa154a0ad9a7437f5465cf621391ff894.gif)
![計算機(jī)輔助翻譯_第5頁](http://file4.renrendoc.com/view/fa154a0ad9a7437f5465cf621391ff89/fa154a0ad9a7437f5465cf621391ff895.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
76Computer-AidedTranslationTechnologyItisveryimportanttonotethatcorpusanalysistoolsdonotinterpretthedata-itisstilltheresponsibilityofthetranslatortoanalyzetheinformationfoundinthecorpus.需要重點注意的是,語料庫分析工具不解釋數(shù)據(jù)一一分析語料庫中的信息仍是譯者的責(zé)任。FURTHERREADINGEngwall(1994),Bowker(1996),MeyerandMackintosh(1996),Pearson(1998).Austermuhl(2001),andBowkerandPearson(2002)discussissuesrelatingtocorpusdesignandcompilation.Barnbrook(1996),Kennedy(1998),McEneryandWilson(1996),andBowkerandPearson(2002)providegoodintroductionstocorpuslinguisticstoolsandtechniques.Bowker(1998,2000),Lindquist(1999),andBowkerandPearson(2002)investigatehowcorporacanbeexploitedastranslationresources.L'Homme(1999a,chapter6)andBowkerandPearson(2002)explainhowmonolingualandbilingualconcordancersworkandexplorehowtheycanbeusefultotranslators.Pearson(1996)andZanettin(1998)explorehowcorpusanalysistoolscanbeintegratedintothetranslationclassroom.Garside,Leech,andMcEnery(1997)provideinformationonvarioustypesofcorpusannotation.擴(kuò)展閱讀英格沃爾(1994),鮑克(1996),梅耶和麥金托什(1996),皮爾森(1998),奧斯特穆勒(2001),和鮑克和皮爾森(2002)討論了與語料庫設(shè)計和編譯相關(guān)的問題。巴恩布克(1996),肯尼迪(1998),麥克恩瑞和威爾遜(1996),鮑克和皮爾森(2002)較好地介紹了語料庫語言工具和技術(shù)。鮑克(1998,2000),林奎斯特(1999),鮑克和皮爾森(2002)調(diào)查了如何將語料庫作為翻譯資源進(jìn)行開發(fā)。洛姆(1999a,第6章)和鮑克和皮爾森(2002)解釋了單語和雙語詞語索引的工作機(jī)制并探索譯者如何將它們作為有用工具進(jìn)行使用的。皮爾森(1996)和扎內(nèi)廷(1998)探討如何將語料庫分析工具應(yīng)用到翻譯課堂中去。加賽德,利奇,麥克恩瑞(1997)為各種類型語料庫注釋提供了信息。Terminology-ManagementSystems_userswhotrytousestandardspreadsheet,database,orword-processingprogramstomanageterminologicaldataalmostinevitablyrunintoproblemsinvolvingcompromiseddataintegrityduetoinadequatemodelingfeatures,inadditiontodifficultiesmanipulatinglargevolumesofdataasresourcesgrowovertime.Schmitz(2001,539)word文檔可自由復(fù)制編輯4術(shù)語管理系統(tǒng)那些嘗試使用標(biāo)準(zhǔn)表格、數(shù)據(jù)庫、或文字處理項目來管理術(shù)語數(shù)據(jù)的用戶幾乎不可避免地會遇到一些問題,除了難以操作由隨著時間的流逝而不斷增多的資源產(chǎn)生的大量數(shù)據(jù),還包括由于建模功能不足而破壞數(shù)據(jù)完整性的問題,。施密茨(2001,539)Amajorpartofanytranslationprojectisidentifyingequivalentsforspecializedterms.Subjectfieldssuchascomputing,manufacturing,law,andmedicineallhavesignificantamountsoffield-specificterminology.Inaddition,manyclientswillhavepreferredin-houseterminology.Researchingthespecifictermsneededtocompleteanygiventranslationisatime-consumingtask,andtranslatorsdonotwanttohavetorepeatallthisworkeachtimetheybeginanewtranslation.Aterminology-managementsystem(TMS)canhelpwithvariousaspectsofthetranslator'sterminology-relatedtasks,includingthestorage,retrieval,andupdatingoftermrecords.ATMScanhelptoensuregreaterconsistencyintheuseofterminology.whichnotonlymakesdocumentationeasiertoreadandunderstand,butalsopreventsmis-communications.Effectiveterminologymanagementcanhelptocutcosts,improvelinguisticquality,andreduceturnaroundtimesfortranslation,whichisveryimportantinthisageofintensetime-to-marketpressures.任何翻譯項目的主要部分都是識別專業(yè)術(shù)語的等價項。諸如計算、制造、法律和醫(yī)學(xué)之類的學(xué)科領(lǐng)域都擁有大量的領(lǐng)域?qū)I(yè)術(shù)語。止匕外,很多客戶會優(yōu)先選擇內(nèi)部術(shù)語。研究需要完成所有給定翻譯的專業(yè)術(shù)語是一項非常耗時的任務(wù),譯員并不想每次開始新的翻譯工作時都要重復(fù)這項工作。術(shù)語管理系統(tǒng)(TMS)可以幫助譯員進(jìn)行相關(guān)術(shù)語的各方面翻譯工作,包括存儲、檢索和更新術(shù)語記錄。術(shù)語管理系統(tǒng)(TMS)能夠確保術(shù)語的使用更加一致,這不僅會使文檔更易于閱讀和理解,而且可以防止出現(xiàn)錯誤交流。有效的術(shù)語管理有助于降低成本,提高語言質(zhì)量,減少翻譯周轉(zhuǎn)時間,在這個市場競爭激烈的時代中這些優(yōu)勢發(fā)揮著重要作用。TMSshavebeeninexistenceforsometime.Earlyeffortstousecomputersforterminologymanagementbeganinthe1960sandeventuallyledtothedevelopmentofseverallarge-scaletermbanks,suchasEurodicautom.Termium,andtheBanquedeterminologieduQuebec(nowknownastheGranddictionnaireterminologique),whichweremaintainedonmainframecomputersbylargeorganizations.Inthe1980s,whendesktopcomputersbecameavailable,personalTMSswereamongthefirstCATtoolscommerciallyavailabletotranslators.Althoughtheywereverywelcomeatthetime,theseearlyTMSshadsomelimitations.Theyweredesignedtorunonasinglecomputerandcouldnoteasilybeshared.Theytypicallyallowedonlysimplemanagementofbilingualterminologyandimposedconsiderablerestrictionsonthetypeandnumberofdatafieldsaswellasonthemaximumamountofdatathatcouldbestoredinthesefields.Recently,however,thistypeofsoftwarehasbecomemorepowerfulandflexible,particularlyintermsofstorageandretrievaloptions.術(shù)語管理系統(tǒng)已經(jīng)存在了一段時間。利用電腦進(jìn)行術(shù)語管理的前期努力始于20世紀(jì)60年代,最終開發(fā)了Eurodicautom、Termium、theBanquedeterminologieword文檔可自由復(fù)制編輯duQuebec(現(xiàn)在被稱為巨型詞典術(shù)語)幾個大型術(shù)語存儲庫,它們都是大型組織在主機(jī)上保存的存儲庫。20世紀(jì)80年代,當(dāng)臺式機(jī)進(jìn)入人們的生活,個人的術(shù)語管理系統(tǒng)便成為了譯者可從市場上買到的首批CAT工具中的一種。雖然當(dāng)時很受歡大家迎,但這些早期的術(shù)語庫管理系統(tǒng)仍具備一定的局限性。所設(shè)計的這些數(shù)據(jù)庫管理系統(tǒng)只能在一臺計算機(jī)上運行并不便于進(jìn)行共享。他們通常只允許對雙語術(shù)語進(jìn)行簡單管理并且極大限制了數(shù)據(jù)域的類型和數(shù)量以及可以存儲在這些數(shù)據(jù)域中的最大數(shù)據(jù)信息量。然而,最近這種類型的軟件功能變得更加強大和靈活,特別是在存儲和檢索選項方面。StorageThemostfundamentalfunctionofaTMSisthatitactsasarepositoryforconsolidatingandstoringterminologicalinformationforuseinfuturetranslationprojects.Previously,manyTMSsstoredinformationinstructuredtextfiles,mappingsource-to-targetterminologyusingaunidirectionalone-to-onecorrespondence.Thiscauseddifficulties,forexample,ifaFrench-EnglishtermbaseneededtobeusedforanEnglish-Frenchtranslation.Thenewer,moresophisticatedsoftwarestorestheinformationusingarelationalmodel.Thismeansthattheinformationisstoredinamoreonomasiologicalorconcept-basedway,whichpermitsmappinginmultiplelanguagedirections.存儲術(shù)語庫最基本的功能是作為存儲庫來鞏固并存儲術(shù)語信息,以備將來翻譯項目之用。之前,許多術(shù)語管理系統(tǒng)將信息存儲在結(jié)構(gòu)化文本中,使用單向一一對應(yīng)的方法進(jìn)行源語和目標(biāo)語之間的轉(zhuǎn)化。這樣,就產(chǎn)生了一些難題,比方說法英翻譯需要用到的法語-英語術(shù)語庫。較新、較復(fù)雜的軟件采用關(guān)系模型來存儲信息,也就意味著要通過一種更加偏向于以專名學(xué)或概念為基礎(chǔ)的方法儲存信息,允許進(jìn)行多種語言之間的轉(zhuǎn)化。Thereisalsoincreasedflexibilityinthetypeandamountofinformationthatcanbestoredonatermrecord.Formerly,userswererequiredtochoosefromapredefinedsetoffields(e.g.,subjectfield,definition,context,source),whichhadtobefilledinoneachtermrecord.止匕外,這也使可儲存在術(shù)語記錄中的信息類型和信息數(shù)量更加靈活。以前,用戶需要從一組預(yù)定義字段(比如主字段、定義、上下文、來源)中進(jìn)行選擇,并且這些字段必須來自每一條術(shù)語記錄。Thenumberoffieldswasoftenfixed,aswasthenumberofcharactersthatcouldbestoredineachfield.Forinstance,ifaTMSallowedforonlyonecontext,theuserwasforcedtorecordonlyonecontext,eventhoughitmayhavebeenusefultoprovideseveral.Anexampleofatypicalconventionalrecordtemplateisprovidedinfigure4.1.Term(En):Term(Fr)Subjectfield:Definition:Context:Synonyms:word文檔可自由復(fù)制編輯Source:Comment:Administrativeinfo(date,author,qualitycode,etc,):Figure4.1TMStermrecordwithafixedsetofpredefinedfields通常,字段數(shù)目以及每個字段能夠存儲的字符數(shù)都是固定的。例如,如果一個術(shù)語管理系統(tǒng)只允許記錄一個文本的話,即使對用戶來說記錄多個文本是有好處的,但他還是只能記錄一個。圖4.1所示的是傳統(tǒng)記錄模板的典型例子。術(shù)語(英文):術(shù)語(法文)主字段:定義:上下文:同義詞:來源:注釋4.1含有一套固定的預(yù)定義領(lǐng)域字段的術(shù)語管理系統(tǒng)的術(shù)語記錄管理信息(日期、作者、質(zhì)量、編碼等):圖4.1Incontrast,asillustratedinfigure4.2,mostcontemporaryTMSshaveadoptedafreeentrystructure,whichallowsuserstodefinetheirownfieldsofinformation,includingrepeatablefields(e.g.,formultiplecontexts)andsomeevenpermittheinclusionofgraphics.Notonlycanuserschoosetheirowninformationfields,theycanalsoarrangeandformatthem,choosingdifferentlayouts,fonts,orcolorsforeasyidentificationofimportantinformation.Thismeansthatthesoftwarecanbeadaptedtosuitaspecificuser'sneedsandcangrowasfuturerequirementschange.Theamountofinformationthatcanbestoredinanygivenfieldorrecordhasalsoincreaseddramatically.Differenttermbasescanbecreatedandmaintaineddesired.Term(En): selected(v)Subjectfield: computingContext1: TheitemyouselecteddoesnotexistSource:ComputermagazineABC,1999Context2: Whenyouarefinishedtheselectingthetext,clickontheFormatmenuSource:UsermanualXYZ,1998Client:CompanyAFr:SelectionnerDate:June2000Client:CompanyBFr:choisirDate:January2001word文檔可自由復(fù)制編輯Figure4.2TMStermrecordwithfreeentrystructure如圖4.2所示,相比之下,大多數(shù)術(shù)語管理系統(tǒng)當(dāng)前都采用自由條目結(jié)構(gòu),讓用戶自行定義他們自己的信息字段,其中包括可重復(fù)字段(例如,處理多個文本時),還有一些甚至允許錄入圖表。用戶不僅可以選擇他們自己的信息字段,還可以將這些信息字段排序和格式化,為它們選擇不同的布局和字體,對容易識別的重要信息進(jìn)行標(biāo)色等。這意味著可以對這款軟件進(jìn)行調(diào)整以滿足特定用戶的需求,并且它還可以隨著未來用戶需求的變化而發(fā)展。很明顯,任何給定字段或記錄所能存儲的信息量也在增加??梢詣?chuàng)建不同的術(shù)語庫以滿足不同需求。術(shù)語(英文): 已選擇(v)主字段: 計算文本1: 你所選擇的項目不存在來源:計算機(jī)基礎(chǔ)雜志,1999文本2: 完成文本的選擇后,單擊“格式”菜單來源:用戶手冊指南,1998客戶:A公司法文:競選人日期:2000年6月客戶I.B凈有自由條目結(jié)構(gòu)的術(shù)語管理系統(tǒng)的術(shù)語記錄法2R選擇eval密:鍛年1月Oncetheterminologyhasbeenstored,translatorsneedtobeabletoretrievethisinformation.Arangeofsearchandretrievalmechanismsisavailable.Thesimplestsearchtechniqueconsistsofalook-uptoretrieveanexactmatch.SomeTMSspermittheuseofwildcardsfortruncatedsearches.Awildcardisacharacter.suchasanasterisk,thatcanbeusedtorepresentanyothercharacterorstringofcharacters.Forinstance,awildcardsearchusingthesearchstring"comput*"couldbeusedtoretrievethetermrecordsfor"computer,""computing,"andsoon.MoresophisticatedTMSsalsoemployfuzzymatchingtechniques.Afuzzymatchwillretrievetermrecordsthataresimilartotherequestedsearchpattern,butthatdonotmatchitexactly.Fuzzymatchingallowstranslatorstoretrieverecordsformorphologicalvariants(e.g.,differentformsofverbs,wordswithsuffixesorprefixes),spellingvariants(orevenspellingerrors),andmulti-wordterms,evenifthetranslatordoesnotknowpreciselyhowtheelementsofthemulti-wordtermareordered.Table4.1providessomeexamplesofthetermrecordsthatcouldberetrievedusingfuzzymatchingtechniques.Table4.1SampletermrecordsretrievedusingfuzzymatchingSearchpatternenteredbyuserTermrecordretrievedusingfuzzymatching“anovulatory” ovulation“discus” disk“departmentfordangerousgoodsdangerousGoodsEmergencyCentreemergencies”word文檔可自由復(fù)制編輯一旦術(shù)語被存儲起來,就要求譯員具備就這些信息進(jìn)行檢索的能力。有一系列的搜索和檢索機(jī)制可供使用。最簡單的搜索技術(shù)就是通過查詢檢索出精確匹配項。一些術(shù)語管理系統(tǒng)允許使用通配符來進(jìn)行截斷搜索。一個通配符就是一個字符,比如一個星號可以用來代表任何字符或者字符串中的字符。例如,通配符搜索使用的搜索字符串“comput*"可以用來檢索“computer”、“computing”等術(shù)語的記錄。較復(fù)雜的術(shù)語管理系統(tǒng)還可以使用模糊匹配技術(shù)。模糊匹配可以檢索出與所要求搜索模式相似的術(shù)語記錄,但并不是精確匹配。即使譯員不能準(zhǔn)確理解多詞術(shù)語中各種成分的組織形式,模糊匹配可以讓他們檢索出形態(tài)變體(例如,動詞的不同形式,帶有前綴或者后綴的單詞),拼寫變體(或者甚至是拼寫錯誤)和多詞術(shù)語的記錄。表4.1所示是通過模糊匹配技術(shù)檢索出的一些術(shù)語記錄的例子。表4.1通過模糊匹配檢索出的術(shù)語記錄示例用戶使用的搜索模式 通過模糊匹配檢索出的術(shù)語記錄“anovulatory” ovulation“discus” disk“departmentfordangerousgoodsdangerousGoodsEmergencyCentreemergencies”Whenwildcardsearchingorfuzzymatchingisused,itispossiblethatmorethanonerecordwillberetrievedasapotentialmatch.Whenthishappens,usersarepresentedwitha"hitlist"ofalltherecordsinthetermbasethatmaybeofinterest,andtheycanselecttherecord(s)thattheywishtoview.Samplehitlistsareshownintable4.2.Table4.2SamplehitlistsretrievedfordifferentSearchpatternsHitlistcontainingrecordsthatmatchthewildcardsearchpattern“cake”Hitlistcontainingrecordsthatfuzzysearchpattern“skate-boardingchampion”cheesecakechampioncupcakeskateboard(n)fruitcakeskateboard(v)pancakeskateboardingInternationalSkateboardingChampionships使用通配符搜索或者模糊匹配時,可能會檢索出不止一條充當(dāng)潛在匹配角色的記錄。出現(xiàn)這種情況時,用戶在術(shù)語庫中會看到他們會感興趣的“命中列表”,在這個列表中,這樣用戶就可以選擇他們想要查看的記錄。表4.2所示的是命中列樣例表4.2不同檢索模式下的命中列樣例命中列表:包含匹配通配符搜索 命中列表:包含匹配模糊搜索模式的記錄 模式的記錄word文檔可自由復(fù)制編輯“cake”“skate-boardingchampion”cheesecakechampioncupcakeskateboard(n)fruitcakeskateboard(v)pancakeskateboardingInternationalSkateboardingChampionships4.3Activeterminologyrecognitionandpre-translation4.3主動術(shù)語識別和預(yù)翻譯AnotherfeatureofferedbysomeTMSs,particularlythosethatoperateaspartofanintegratedpackagewithwordprocessorsandtranslation-memorysystems(seesection)isknownasactiveterminologyrecognition.Thisfeatureisessentiallyatypeofautomaticdictionarylook-up.Asthetranslatormovesthroughthetext,theterminology-recognitioncomponentcomparesitemsinthesourcetextagainstthecontentsofthetermbase,andifamatchisfound,thetermrecordinquestionisdisplayedfortheusertoconsult.一些術(shù)語管理系統(tǒng)的另一功能,特別那些作為帶有文字處理器和翻譯記憶系統(tǒng)的完整軟件包的一部分進(jìn)行運作的術(shù)語管理系統(tǒng)(見節(jié)),以主動術(shù)語識別著稱。從本質(zhì)上來說,這是一種自動字典查詢功能。隨著譯員逐漸深入研究文本,術(shù)語識別組件會將源文本中的項目與術(shù)語庫中的內(nèi)容進(jìn)行對比,如果找到匹配項,就會把這個選中的術(shù)語記錄展現(xiàn)給用戶以供其參考。SomeTMSsalsopermitamoreautomatedextensionofthisfeatureinwhichatranslatorcanaskthesystemtodoasortofpre-translationorbatchprocessingofthetext.'還有一些術(shù)語管理系統(tǒng)具有自動擴(kuò)展功能。這樣,譯者就可以利用系統(tǒng)完成文本的預(yù)翻譯和批處理。82Computer-AidedTranslationTechnology計算機(jī)輔助翻譯技術(shù)Table4.3Automaticreplacementofsource-texttermswithtranslationequivalentsfoundinatermbaseSourcetextsentencefollowingTermbaseentriesforitemscontainedinthesourcetextSentenceproducedpre-translationThefileoperationdiskdisqueTheoperationword文檔可自由復(fù)制編輯defichiercannotbecompletedfileoperation-operationdefichiercannotbecompletedbecausebecausethediskisfullfull-sature thedisqueissature表4.3用術(shù)語庫中的翻譯等值項目自動替換源文本中的術(shù)語原文本句子 術(shù)語庫條目中包含的源文本術(shù)語 預(yù)翻譯后產(chǎn)生的句子Thefileoperation diskdisque Theoperationdefichiercannotbecompletedfileoperation-operationdefichiercannotbecompletedbecausebecausethediskisfullfull-sature thedisqueissatureInthiscase,theTMSwillidentifytermsforwhichanentryexistsinthetermbase,anditwillthenautomaticallyinsertthecorrespondingequivalentsintothetargettext.Theresultofthispre-translationphaseisasortofhybridtext,asshownintable4.3.Inapost-editingphase,itisuptothetranslatortoverifythecorrectnessoftheproposedtermsandtotranslatetheremainderofthetextforwhichnoequivalentswerefoundinthetermbase.在這種情況下,術(shù)語管理系統(tǒng)將會在已有的術(shù)語庫中識別這些術(shù)語,然后自動在目標(biāo)文本中插入相應(yīng)的翻譯等值項。這個預(yù)翻譯階段的結(jié)果就是生成一種混合文本,如表4.3所示。在文章編輯階段,將由譯者來驗證所替換術(shù)語的正確性并翻譯未能在術(shù)語庫中找到翻譯等值項的剩余部分。4.4TermextractionAnotherfeaturethatmaybeincludedinsomeTMSsisaterm-extractiontool,whichissometimesreferredtoasaterm-recognitionorterm-identificationtool.Mostterm-extractiontoolsaremonolingual,andtheyattempttoanalyzesourcetextsinordertoidentifycandidateterms.However,somebilingualtoolsarebeingdevelopedthatanalyzeexistingsourcetextsalongwiththeirtranslationsinanattempttoidentifypotentialtermsandtheirequivalents.Thisprocesscanhelpatranslatorbuildatermbasemorequickly;however,althoughtheinitialextractionattemptisperformedbyacomputer,theresultinglistofcandidatesmustbeverifiedbyahuman,andthereforetheprocessisbestdescribedasbeingcomputer-aidedorsemi-automaticratherthanfullyautomatic.Unliketheword-frequencylistsdescribedinsection3.2.1,term-extractiontoolsword文檔可自由復(fù)制編輯attempttoidentifymulti-wordunits.Therearetwomainapproachestotermextraction:linguisticandstatistical.Forclarity,theseapproacheswillbeexplainedinseparatesections;however,aspectsofbothapproachescanbecombinedinasingleterm-extractiontool.4.4術(shù)語抽取一些術(shù)語管理系統(tǒng)可能還有另一個特點,就是包含了術(shù)語抽取工具,有時也被稱為術(shù)語識別或術(shù)語鑒別工具。大多數(shù)術(shù)語抽取工具是單語的,它們試圖分析源文本以確定候選術(shù)語。然而,也正在開發(fā)一些雙語工具,這些工具可分析現(xiàn)有的源文本以及他們的翻譯在以期識別出它們的潛在術(shù)語及等值項。這一過程可以幫助譯者更迅速的建立一個術(shù)語庫;盡管最初的提取嘗試是由計算機(jī)執(zhí)行的,但是必須由人來驗證最終產(chǎn)生的候選列表,因此對它的最佳描述應(yīng)該是計算機(jī)輔助或半自動翻譯而非全自動。與3.2.1節(jié)中所描述的詞頻列表不同,術(shù)語抽取工具試圖識別多詞單位。術(shù)語抽取主要有兩種方法:語言學(xué)方法和統(tǒng)計學(xué)方法。為了清楚起見,將在不同的章節(jié)對這兩種方法進(jìn)行分別解釋;然而,這兩種方法的某些方面也可以結(jié)合成一個單一術(shù)語提取工具。Terminology-ManagementSystems83術(shù)語管理系統(tǒng)83Antivirusprogramsnowincludeanumberofoptions.Integritycheckingperformschecksofthestatusofthefilesagainsttheinformationthatisstoredinadatabase.Behaviorblockingperformsbefore-the-factdetection.Heuristicanalysisisaformofafter-the-factdetection.Ashorttextthathasbeenprocessedusingalinguisticapproachtotermextraction.圖4.3 一個使用語言學(xué)方法進(jìn)行術(shù)語抽取加工的簡短文本Antivirusprogramsnowincludemoreoptions.Integritycheckingperformsperiodicchecksofthecurrentstatusofthefilesagainsttheinformationthatisstoredinformation.Behaviorblockingperformsbefore-the-factdetection.Heuristicanalysisisaformofafter-the-factdetection.Aslightlymodifiedversionofthetextthathasbeenprocessedusingalinguisticapproachtotermextraction.圖4.4 使用語言學(xué)方法進(jìn)行術(shù)語抽取加工并輕微修正過的文本4.4.1LinguisticapproachTerm-extractiontoolsthatusealinguisticapproachtypicallyattempttoidentifywordcombinationsthatmatchparticularpart-of-speechpatterns.Forexample,inEnglish,manytermsconsistofNOUN+NOUNorADJECTIVE+NOUNcombinations.Inordertoimplementsuchanapproach,eachwordinthetextmustword文檔可自由復(fù)制編輯firstbetaggedwithitsappropriatepartofspeech,asdescribedinsection3.3.Oncethetexthasbeencorrectlytagged,theterm-extractiontoolsimplyidentifiesalltheoccurrencesthatmatchthespecifiedpart-of-speechpatterns.Forinstance,atoolthathasbeenprogrammedtoidentifyNOUN+NOUNandADJECTIVE+NOUNcombinationsaspotentialtermswouldidentifyalllexicalcombinationsmatchingthosepatternsfromagiventext,asillustratedinfigure4.3.Unfortunately,notalltextscanbeprocessedthisneatly.Ifthetextismodifiedslightly,asillustratedinfigure4.4,problemssuchas"noise"and"silence"becomeapparent.First,notallofthecombinationsthatfollowthewillqualifyspecifiedpatternsasterms.OftheNOUN+NOUNandADJECTIVE+NOUNcandidatesthatwereidentifiedinfigure4.4,somequalifyasterms4.4.1語言學(xué)方法使用語言學(xué)方法的術(shù)語抽取工具的典型特點是:試圖通過匹配特定的詞性模式來識別單詞組合。例如,許多英語術(shù)語的構(gòu)成模式是:名詞+名詞或者形容詞+名詞。為了適應(yīng)這種方法,首先必須適當(dāng)標(biāo)記出文本中每個單詞的詞性,如3.3節(jié)所述。一旦文本被正確標(biāo)記,術(shù)語提取工具將很容易識別出與特定詞性模式相匹配的所有術(shù)語。例如,一個術(shù)語抽取工具編程的潛在條件是識別名詞+名詞組合和形容詞+名詞組合,那么該工具可以從給定文本中識別出與這一模式相匹配的所有詞匯組合,如圖4.3所示。不幸的是,并不是所有的文本都可以被加工的這么整齊。如果對文本稍作修改,如圖4.4所示,“噪聲”和“無聲”之類的問題將變得很顯而易見。首先,并非所有的詞匯組合都按照指定的術(shù)語模式以合格特定術(shù)語模式的身份出現(xiàn)。圖4.4識別出的名詞+名詞和形容詞+名詞候選模式中,有一些符合("antivirusprograms,""integritychecking,""behaviourblocking,""heuristicanalysis"),然而另外一些卻不符合,(moreoptions,”“periodicchecks,”“currentstatus,”“storedinformation,")。后面這個集合構(gòu)成噪聲并需要將其人工排除在候選名單之外。84Computer-AidedTranslationTechnology("antivirusprograms,""integritychecking,""behaviourblocking,""heuristicanalysis"),whereasothersdonot("moreoptions,""periodicchecks,""currentstatus,""storedinformation").Thelattersetconstitutesnoiseandwouldneedtobeeliminatedfromthelistofcandidatesbyahuman.Anotherpotentialproblemisthatsomelegitimatetermsmaybeformedaccordingtopatternsthathavenotbeenpre-programmedintothetool.Thiscanresultin"silence."-asituationinwhichrelevantinformationisnotretrieved.Forexample,theterms"before-the-fact-detection"and"after-the-factdetection"havebeenformedusingthepatternPREPOSITION+ARTICLE+NOUN+NOUN;however,thispatternisnotcommonandisnotlikelytoberecognizedbymanytermextractiontools.Afinaldrawbacktothelinguisticapproachisthatitisheavilylanguagedependent.Term-formationpatternsdifferfromlanguagetolanguage.Forinstance,term-formationpatternsthataretypicalinEnglish(e.g.,ADJECTIVE+NOUN.NOUN+NOUN)arenotthesameasterm-formationpatternsthatarecommoninword文檔可自由復(fù)制編輯French(e.g.,NOUN+ADJECTIVE,NOUN+PREPOSITION+NOUN).Consequently,term-extractiontoolsthatusealinguisticapproacharegenerallydesignedtoworkinasinglelanguage(orcloselyrelatedlanguages)andcannoteasilybeextendedtoworkwithotherlanguages.84計算機(jī)輔助翻譯技術(shù)另一個潛在問題是,一些根據(jù)未被預(yù)先編程到術(shù)語抽取工具中去的模式構(gòu)成合理術(shù)語。這可能產(chǎn)生“無聲”一一種未檢索到相關(guān)信息的情況。例如,"before-the-fact-detection"和"after-the-factdetection"兩個術(shù)語就是按照介詞+冠詞+名詞+名詞的模式構(gòu)成的。當(dāng)然,這一模式不常見也不易于許多術(shù)語抽取工具對其進(jìn)行識別。最后,使用語言學(xué)方法進(jìn)行操作的術(shù)語抽取工具的缺點是,它有嚴(yán)重的語言依賴性。不同語言的術(shù)語構(gòu)成模式各不相同。例如,典型的英文術(shù)語形成模式(如:名詞+名詞,形容詞+名詞)在法文術(shù)語形成模式中卻不如(名詞+形容詞,名詞+介詞+名詞)常見。因此,使用語言學(xué)方法進(jìn)行操作的術(shù)語抽取工具的設(shè)計目的是在一個單語(或密切相關(guān)的語言)工作環(huán)境中使用,而且很不容易延伸到其他語言環(huán)境中去。4.2:TMSspermitmoreflexiblestorageandretrieval.Inaddition,itiseasiertoupdateelectronicinformation,andfastertosearchthroughelectronicfiles.Eventhoughawordprocessorallowsinformationtobestoredinelectronicform,itisnotanadequatetoolformanagingterminologyinanefficientway,anditssearchfacilitiesslowdownconsiderablyasthetermbasegrowsinsize.AnotherwaythataTMScanpotentiallyspeedupatranslator'sworkisbyallowingtermstobepasteddirectlyintothetargettext,thusavoidingtheneedtoretypetheterm.Ofcourse,termsmayneedtobeeditedtofitintothecontext(e.g.,averbmayneedtobeconjugated),whichmeansthattimesavedoncopyingandpastingmayneedtobespentonediting.Insomecases,thishasledtoanewwayofrecordinginformationonterminologyrecords,andthisisdiscussedinsection.2:術(shù)語管理系統(tǒng)讓信息的存儲和檢索更加靈活。此外,它讓電子信息更新變得更加容易,讓通過電子文件進(jìn)行搜索的速度變得更快。盡管文字處理器允許以電子版的形式存儲信息,但它并不能恰當(dāng)有效地管理術(shù)語,并且其搜索設(shè)備的搜索速度也會隨著術(shù)語庫規(guī)模的擴(kuò)大而大大減慢。術(shù)語管理系統(tǒng)能夠幫助提高譯員的工作速度,因為它允許將術(shù)語直接粘貼到目標(biāo)文本中,而避免了重新輸入術(shù)語。當(dāng)然,必要時需要重新編輯術(shù)語以適應(yīng)上下文的需要(例如動詞可能需要變位配合),這意味著節(jié)省了在編輯過程中復(fù)制和粘貼術(shù)語所需要的時間。這在某種程度上也促成了一種記錄術(shù)語信息新方法的形成,4.6.3節(jié)將就其展開討論。4.6.2quality4.6.2質(zhì)量Althoughanytypeofglossarycanhelptoimproveconsistencythroughoutatranslationproject,theactiveterminology-recognitionfeatureofsomeTMSstakesthisonestepfurther.AsClark(1994,306)notes,thereislittlepointingoingtothetroubleofensuringthatterminologyisagreedtobeforehandandstoredinatermbaseword文檔可自由復(fù)制編輯iftranslatorschoosenottoconsultthistermbase.Withactiveterminologyrecognition,thechoiceistakenoutoftheirhandsbecausetermsinthesourcetextareautomaticallycheckedagainstthetermbase.盡管任何類型的術(shù)語表都能提高整個翻譯項目的一致性,但是一些術(shù)語管理系統(tǒng)的主動術(shù)語識別功能在一領(lǐng)域領(lǐng)先了一步。正如克拉克(1994,36)所指出的那樣,如果譯員不查詢術(shù)語庫,那么為預(yù)先確定術(shù)語并將其存儲在術(shù)語庫中所做的努力就沒有意義了。依靠主動術(shù)語識別,譯員有了更多選擇,因為可以在術(shù)語庫中自動檢索源文本中的術(shù)語。4.6.3ChangingthenatureofthetaskInadditiontospeedingupthetaskofsearchingforterminology,thereissomeevidencethatthetechnologyisbeginningtohaveanimpactontheamountandtypeofterminologicalinformationthatisbeingrecordedonatermrecord,aswellasonthewayinwhichthisinformationisbeingrecorded.4.6.3改變翻譯任務(wù)的性質(zhì)除了能夠加快進(jìn)行搜索術(shù)語的任務(wù),一些證據(jù)表明術(shù)語管理系統(tǒng)應(yīng)用技術(shù)正開始影響術(shù)語記錄中的術(shù)語信息數(shù)量和信息類型,其影響方式也一同記錄其中。Althoughflexibletoolsdoallowuserstoenterdetailedinformationintoglossaries,itisbecomingincreasinglycommontoseeglossariesusedinthelocalizationindustrythatcontainonlythesourceandtargetterm,andperhapsacommentifthesourcetermhasmultiplepossibletranslationsdependingonthecontext.AccordingtoO'Brien(1998,118),thereareseveralreasonsforthistypeofstripped-downglossaryformat.First,therequiredturnaroundtimeinthelocalizationindustryisoftensoshortthatitdoesnotallowforthepreparationofdetailedglossaries.Second,theterminologyused(evenbythesameclient)canchangerapidly,warrantingnewglossarieseachtimetheclienthasaproductlocalized.Finally,thetranslator,whoalsohastoproduceveryfastturnaroundtimes,isinterestedonlyintheclient-approvedtranslatedtermandthecontextinwhichatermcanoccurifthereismorethanonetranslationforthatterm.Ofcourse,thistrendhasbeencausedmorebythenatureofthetranslationmarketthanbythenatureofthetechnologyitself;however,thefactthattechnologymakesiteasytocompileandtransferinformationquicklyhascontributedtothetrendoftreatingglossariesasdisposableitems,ratherthanaslongstandingrecords.雖然靈活的工具允許用戶將詳細(xì)信息輸入術(shù)語表,我們可以看到術(shù)語表正被越來越普遍(廣泛)地用于本地化行業(yè),但僅包含源語術(shù)語和目標(biāo)術(shù)語以及可能的注釋并且條件是根據(jù)上下文的含義源術(shù)語有多種翻譯可能。根據(jù)奧布萊恩(1998,118)的看法,存在這種精簡版的術(shù)語表格式的原因有以下幾種:首先,本地化行業(yè)所需要的周轉(zhuǎn)時間往往很短,它不允許編制詳細(xì)的術(shù)語表;其次,使用的術(shù)語(即使是同一客戶端)會迅速改變,以確??蛻舳嗽诿看斡幸粋€本地化產(chǎn)品時會有相應(yīng)的新術(shù)語表;最后,在周轉(zhuǎn)時間內(nèi)同樣需要快速產(chǎn)出作品的譯員只對經(jīng)客戶端核準(zhǔn)的術(shù)語以及包含多種翻譯意思的術(shù)語所適用的語境感興趣。當(dāng)然,比起翻譯本身的性質(zhì),是翻譯市場的性質(zhì)更多地造成了這種趨勢。然而,技術(shù)讓快速編譯和傳輸信息成為事實,這一事實已經(jīng)促成將術(shù)語表作為一次性利用工具而非長期記錄趨勢的產(chǎn)生。Thetechnologyis,however,responsibleforpromptingachangeinboththetypeofword文檔可自由復(fù)制編輯datathatarebeingstoredandthewayinwhichtheyarerecordedontermrecords.Forexample,inintegratedpackages(packagesthatarelinkedwithotherapplications,suchaswordprocessorsortranslationmemories),translatorscanautomaticallyinsertterminologyfromtheTMSdirectlyintothetargettext(e.g.,byclickingontheterminthetermrecord).Thiscansavetime,asthereisnoneedtoretypeorcutandpaste.Oneresultofthisisthatsometranslatorsarecreatingtermrecordsforphrasesorexpressionsthatoccurfrequentlyinaspecializedsubjectfieldbutdonotqualifyastermsintheconventionalsense.Forinstance,atranslatorworkingonthetranslationofacomputermanualmaycreatetermrecordsforexpressionssuchas"clickonOK"or"it'seasyto"becauseitisfastertoinsertthesefrequentlyusedexpressionsdirectlyfromtheTMSthanitistotypethem.然而,該技術(shù)負(fù)責(zé)推動正被存儲的數(shù)據(jù)類型改變,以及將該數(shù)據(jù)被記錄在術(shù)語記錄中的方式的改變。例如,在綜合程序包中(即與其他應(yīng)用程序,如文字處理器或翻譯記憶相關(guān)聯(lián)的程序包),譯員可以從術(shù)語管理系統(tǒng)中自動直接將術(shù)語插入到目標(biāo)文本中(例如,通過點擊術(shù)語記錄中的記錄插入)。這可以節(jié)省時間,無需重新輸入或剪切和粘貼術(shù)語。這么做的后果是,譯員將可以把頻繁出現(xiàn)的某個專門學(xué)科領(lǐng)域的短語或表達(dá)制成術(shù)語,以區(qū)別于他們的傳統(tǒng)意義。例如,一個致力于電腦使用手冊翻譯的譯員可以創(chuàng)建屬于表達(dá)式如“點擊OK鍵”或是“這很容易”之類的術(shù)語,因為從術(shù)語管理系統(tǒng)中直接插入這些常用表達(dá)式要快于重新輸入。'OfcoursewhenterminologyisinsertedintothetargettextfromtheTMS,someeditingmayberequired(e.g..toconjugateaverb),andthishasraisedaninterestingquestionregardingwhichformofatermshouldberecordedonatermfile.Traditionally,termfileshavealwayscontainedthecanonicalformofaterm(thesingularformofanoun,theinfinitiveformofaverb,themasculineformofanadjective)(Dubuc1985.80;Rondeau1984,84).However,Kenny(1999,71)hasobservedthatinordertoreducetheamountoftimespenteditingtermsthathavebeeninserteddirectlyfromTMSs,sometranslatorsarenowchoosingtorecordthemostcommonformofaterm,orindeedseveralformsofaterm,inthetermrecord,asshowninfigure4.7.Thisway,thecorrectformcanbeinsertedsimplybyclickingonit,andtherewillbenoneedtoedittheterminthetargettext.FurtherdiscussionontheintegrationofTMSsandtranslationmemorysystemscanbefoundinsection.當(dāng)然,從術(shù)語管理系統(tǒng)中直接將術(shù)語插入到目標(biāo)文本中可能需要一些編輯(如動詞變位),這就產(chǎn)生了一個有趣的問題,即應(yīng)將何種術(shù)語格式記錄在術(shù)語文件中。傳統(tǒng)上講,術(shù)語文件總是包含標(biāo)準(zhǔn)格式的術(shù)語(名詞單數(shù)、動詞不定式、陽性形容詞)。然而,肯尼(1999,71)發(fā)現(xiàn),為節(jié)省從術(shù)語管理系統(tǒng)中直接插入術(shù)語所需要的編輯時間,有些譯員選擇記錄術(shù)語最常見的一種或幾種格式,如圖4.7所示。通過這種方式,可以通過簡單地點擊將正確格式的術(shù)語插入到目標(biāo)文本中,無需再次進(jìn)行編輯。可以在節(jié)找到就整合術(shù)語管理系統(tǒng)和翻譯記憶系統(tǒng)所作出的進(jìn)一步討論。4.6.4Shareabilityofinformation:networking,fileformats,andstandardsTerminology-managementsystemscanbeusedasstand-alonetools,butmoreandmore,theyarebeingnetworkedsothatseveraluserscanaccessandcontributetotheword文檔可自由復(fù)制編輯termbase.Insuchcases,itmaybedesirabletogivedifferentusersdifferenttypesofprivilegesonthenetworksystem.4.6.4信息共享性:網(wǎng)絡(luò)、文件格式和標(biāo)準(zhǔn)術(shù)語管理系統(tǒng)可以作為獨立工具使用,但他們逐漸被網(wǎng)絡(luò)化,以便于幾個(多個)使用者(用戶)能夠同時訪問,這有助于促進(jìn)術(shù)語庫的發(fā)展。這種情況下,給不同使用者不同類型的網(wǎng)絡(luò)系統(tǒng)特權(quán)的做法是可取的。4.4.2Statisticalapproach統(tǒng)計學(xué)方法Themoststraightforwardstatisticalapproachtotermextractionisforatooltolookforrepeatedseriesoflexicalitems.Thefrequencythreshold(thenumberoftimesthataseriesofitemsmustberepeated)canoftenbespecifiedbytheuser.Forexample,asillustratedinfigure4.5,iftheminimumfrequencythresholdissetattwo,agivenseriesoflexicalitemsmustappearatleasttwiceinthetextinor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度寵物醫(yī)院與寵物保險機(jī)構(gòu)合作合同
- 梅州市2025版商品房購買合同范本
- 2025年度高端醫(yī)療器械研發(fā)生產(chǎn)合同-@-1
- 2025年廣告宣傳合同簽訂范
- 2025年女鞋定制合同
- 退休返聘合同
- 二零二五年度辦公室翻新與餐飲店改造設(shè)計施工合同
- 二零二五年度城市公共安全報警系統(tǒng)電路升級改造合同
- 提取公積金借款合同
- 銷售抵押合同
- 長江委水文局2025年校園招聘17人歷年高頻重點提升(共500題)附帶答案詳解
- 2025年湖南韶山干部學(xué)院公開招聘15人歷年高頻重點提升(共500題)附帶答案詳解
- 廣東省廣州市番禺區(qū)2023-2024學(xué)年七年級上學(xué)期期末數(shù)學(xué)試題
- 不可切除肺癌放療聯(lián)合免疫治療專家共識(2024年版)j解讀
- DB23/T 3657-2023醫(yī)養(yǎng)結(jié)合機(jī)構(gòu)服務(wù)質(zhì)量評價規(guī)范
- 教科版科學(xué)六年級下冊14《設(shè)計塔臺模型》課件
- 智研咨詢發(fā)布:2024年中國MVR蒸汽機(jī)械行業(yè)市場全景調(diào)查及投資前景預(yù)測報告
- 法規(guī)解讀丨2024新版《突發(fā)事件應(yīng)對法》及其應(yīng)用案例
- JGJ46-2024 建筑與市政工程施工現(xiàn)場臨時用電安全技術(shù)標(biāo)準(zhǔn)
- 煙花爆竹重大危險源辨識AQ 4131-2023知識培訓(xùn)
- 企業(yè)動火作業(yè)安全管理制度范文
評論
0/150
提交評論