




已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
.計(jì)算機(jī)輔助翻譯技術(shù)概論押題:1、 隱馬爾科夫模型 2、機(jī)器翻譯的方法 3、文本電子化OCR 4、雙語對齊處理 5、漢語切分的方法和關(guān)鍵問題5-20考試計(jì)算機(jī)輔助翻譯技術(shù)考試題型:填空、判斷、問答7-8個(gè)考查內(nèi)容:基本概念梳理,理解分析能力,考題思路,課件!1、概論1.1概況為什么要研究翻譯技術(shù)? 何謂翻譯技術(shù)(translation technology)?能夠用來進(jìn)行語言翻譯或輔助進(jìn)行語言翻譯的信息技術(shù)。 解決或緩解語言障礙(language barrier)問題,提高翻譯從業(yè)人員的生產(chǎn)率。 翻譯技術(shù)的研究始于機(jī)器翻譯關(guān)于機(jī)器翻譯 機(jī)器翻譯(Machine Translation)定義:利用計(jì)算機(jī)及其軟件把一種語言(自動(dòng))翻譯成為另外一種語言的技術(shù)。 機(jī)器翻譯研究的目標(biāo)是研制具有翻譯能力的計(jì)算機(jī)軟件系統(tǒng)。 機(jī)器翻譯的研究始于20世紀(jì)40年代末期。 機(jī)器翻譯結(jié)論很困難。翻譯技術(shù)的分流 機(jī)器翻譯(MT):機(jī)器翻譯的主體是機(jī)器。目前比較困難。(目標(biāo)是尋找徹底的解決方案) 計(jì)算機(jī)輔助翻譯(CAT):計(jì)算機(jī)輔助翻譯的主體是人。相對比較容易,但卻很實(shí)用。 計(jì)算機(jī)輔助翻譯立足為翻譯人員提供(軟件)工具。協(xié)助翻譯人員提高效率(生產(chǎn)率)。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) TranslationMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT關(guān)于翻譯技術(shù)的理解 狹義的理解,翻譯技術(shù)指計(jì)算機(jī)輔助翻譯技術(shù)和機(jī)器翻譯技術(shù)。 廣義的理解,翻譯技術(shù)指的是對翻譯人員工作有益的任何信息技術(shù)。n 文字處理工具(MS Word) (不可或缺)n 國際互聯(lián)網(wǎng)及其應(yīng)用(WWW、Email.)n 各種電子資源(百科全書光盤.) 本課程的定位:n 主要是狹義的翻譯技術(shù)。n 配合翻譯技術(shù)的一些通用技術(shù)(數(shù)據(jù)獲取技術(shù)、文本處理技術(shù))關(guān)于本地化何謂本地化(localization)?The term “l(fā)ocalization” refers to the process of customizing or adapting a product for a targetlanguage and culture.全球化沒有帶來其他語言的消亡,帶來了本地化。本地化的特點(diǎn):量大、 時(shí)間緊迫、 技術(shù)(應(yīng)用)性強(qiáng)simshipAn abbreviation of “simultaneous shipment”, which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術(shù)概觀翻譯技術(shù)體現(xiàn)為一組翻譯工具,是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。n 資料的收集n 原文的理解n 術(shù)語的處理1.2工具語言材料的電子化工具 Data-capture tools 使用翻譯技術(shù)的前提:待翻譯的文本需要是電子化的,是計(jì)算機(jī)可以處理的。 翻譯過程中所需要的各種資源需要是電子化的。 何為機(jī)器可讀(Machine readable)? 文字變成編碼形式 常見的電子化手段:手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、 Voice Recognition 文件格式轉(zhuǎn)換工具 編碼轉(zhuǎn)換工具 多語種處理能力語料庫分析工具 Corpus:a large collection of electronic texts that have been gathered according to specific criteria. Type of corpus:n monolingual corpus:orpus which consists of texts in one language.n parallel corpus:corpus containing source texts aligned with their translations.語料電子化工具、語料處理工具 Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists, concordances, and collocations.(頻率表、關(guān)鍵詞、搭配) Frequency list Concordance (bilingual or monolingual) Collocation Corpus-analysis tools allow users to have access to frequency data and to see terms in a variety of contexts simultaneously features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context 直觀認(rèn)識語料處理工具漢語切詞(segmentation)詞性標(biāo)注(POS tagging)屈折語形態(tài)還原(lemmatization)句法分析(parsing)雙語對齊 (alignment)既是 語料處理工具 通常也是機(jī)器翻譯或機(jī)器輔助翻譯系統(tǒng)的組成部分術(shù)語管理工具翻譯中的術(shù)語一致性問題:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identification)Monolingual or BilingualQuality of term extraction翻譯記憶工具Translation Memory: a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match n Fuzzy matchn No matchTM tools and localizationTM CreationTM tool是CAT的核心工具機(jī)器翻譯用作輔助翻譯工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略n Sublanguagen controlled language集成翻譯工具 Translators workbench (workstation):an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management, translation memory, and automatic translation. Workflow management1.3 翻譯技術(shù)與計(jì)算語言學(xué) 計(jì)算語言學(xué)是通過建立形式化的計(jì)算模型來分析、理解和處理自然語言的學(xué)科。是一門文理交叉的學(xué)科。(源于翻譯技術(shù)的需求) 翻譯技術(shù)建立在計(jì)算語言學(xué)的基礎(chǔ)之上,翻譯技術(shù)的突破有待于計(jì)算語言學(xué)的發(fā)展。 自然語言n2、P2-翻譯技術(shù)的數(shù)學(xué)基礎(chǔ)2.1概率統(tǒng)計(jì)的基本概念2.1.1隨機(jī)事件隨機(jī)事件:在一定條件下,可能發(fā)生也可能不發(fā)生的事件稱為隨機(jī)事件,簡稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機(jī)事件的兩個(gè)特殊情況必然事件:每次試驗(yàn)都必定發(fā)生的事件(W )。不可能事件:每次試驗(yàn)都一定不發(fā)生的事件(F)。2.1.2頻率和概率頻率:如果在相同條件下進(jìn)行了n次重復(fù)試驗(yàn),事件A出現(xiàn)了v次,那么事件A在n次實(shí)驗(yàn)中出現(xiàn)的頻率為是 v/n。當(dāng)n無限增大時(shí),頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計(jì)規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率:概率:事件A發(fā)生的可能性大小稱為事件的概率,記作P(A)。當(dāng)試驗(yàn)的次數(shù)n足夠大,可以用事件的頻率近似地表示該事件的概率,即概率的基本性質(zhì)條件概率條件概率 在事件B發(fā)生的條件下,事件A發(fā)生的概率稱為事件A在事件B已發(fā)生的條件下的條件概率,記作P(A|B)。當(dāng)P(B)0時(shí),規(guī)定: 當(dāng)P(B)=0時(shí),規(guī)定P(A|B)=0。乘法公式2.1.3獨(dú)立性和貝葉斯公式 若事件A和B,滿足條件P(AB)=P(A)P(B)則稱事件A和B相互獨(dú)立。貝葉斯公式:根據(jù)乘法公式,可以得到下面的重要公式2.1.4隨機(jī)變量隨機(jī)變量: 每次試驗(yàn)的結(jié)果可以用一個(gè)實(shí)值變量X的取值來表示,這個(gè)變量稱為隨機(jī)變量。它是隨機(jī)現(xiàn)象的數(shù)量化。離散型隨機(jī)變量 如果隨機(jī)變量X只能取有限個(gè)(或可列個(gè) )數(shù)值x1,x2,xn,就稱X為離散型隨機(jī)變量。在語言的統(tǒng)計(jì)處理中,一般僅用到離散型隨機(jī)變量。2.1.5概率質(zhì)量函數(shù)(pmf)設(shè)X是一個(gè)離散型隨機(jī)變量,它所有可能取的值為x1, x2, , xn, ,PX =xk=pk (k = 1, 2, , n, ),則可以用下面的表格來表達(dá)X統(tǒng)計(jì)的規(guī)律:其中,1pk0且pk=1 ,稱表格所表示的函數(shù)為離散型隨機(jī)變量的分布質(zhì)量函數(shù),記作p(x)。2.1.6 隨機(jī)變量的數(shù)字特征期望 方差 標(biāo)準(zhǔn)差數(shù)學(xué)期望: 隨機(jī)變量X的數(shù)學(xué)期望E(X)是該變量取值的概率加權(quán)平均。數(shù)學(xué)期望簡稱期望,描述了隨機(jī)變量的平均值。若X為離散型隨機(jī)變量,則:E(X) = X1*p(X1) + X2*p(X2) + + Xn*p(Xn)隨機(jī)變量(X E(X)2的數(shù)學(xué)期望稱為隨機(jī)變量X 的方差,記作D(X)或Var(X)。方差描述了隨機(jī)變量的取值距離其平均值(即期望值)的分散程度。即標(biāo)準(zhǔn)差 隨機(jī)變量X的標(biāo)準(zhǔn)差定義為隨機(jī)變量X的方差的算術(shù)平方根,記作s (X ) 。即:2.1.7總體、樣本總體 研究對象的所有可能的觀察結(jié)果稱為總體 。樣本 從總體中抽取一部分樣品,稱為總體的一個(gè)樣本。數(shù)理統(tǒng)計(jì)方法是通過研究樣本來了解和判斷總體的統(tǒng)計(jì)特性的科學(xué)方法。2.2信息論的基本概念2.2.1最優(yōu)編碼變長編碼:給小概率信息賦以較長的編碼,而給大概率消息賦以較短的編碼。隨機(jī)變量 X 服從概率分布 P,如果消息 x 的分布密度為 p(x),則給其分配一個(gè)長度為個(gè)二進(jìn)制位的編碼。消息的編碼長度大,可理解為消息所含信息量大。消息的編碼長度小,則消息所含信息量小。平均信息量即為發(fā)送一個(gè)消息的平均編碼長度 。信息論中用熵描述隨機(jī)變量平均信息量。2.2.2熵(entropy)熵描述了隨機(jī)變量的不確定性。2.2.3 互信息(mutual information)2.2.4噪音信道模型在利用噪聲信道處理語言問題時(shí),人們并不關(guān)心編碼問題,而更多關(guān)心的是,在有噪聲存在的情況下,如何解碼將輸出還原為信道輸入。2.3統(tǒng)計(jì)語言模型簡介語言建模(Language Modeling)對于一個(gè)服從某個(gè)未知概率分布P的語言L,根據(jù)給定的語言樣本估計(jì)P的過程被稱作語言建模。3、P3-語言材料電子化工具-文本電子化:手段編碼及格式3.1 關(guān)于文本電子化 定義:文本電子化就是指將文本轉(zhuǎn)換為機(jī)器可讀形式進(jìn)行存儲(chǔ)。 使用翻譯技術(shù)的前提:A 待譯文本需要是電子化的。 B、翻譯過程中使用的語言資源需要電子化:語料庫:翻譯記憶庫(TM):術(shù)語資源、詞典資源 文本的機(jī)器可讀形式:計(jì)算機(jī)及其軟件可以讀寫以及處理。如文字編輯。對于文本而言,字符以適當(dāng)?shù)木幋a形式存儲(chǔ)。如:ASCII碼、GB2312碼、UNICODE碼等。非機(jī)器可讀形式的文本:手寫文稿、打印文稿n 傳真文稿n 文稿的數(shù)字照片3.2 關(guān)于文字編碼和編碼轉(zhuǎn)換 文字在計(jì)算機(jī)中是以編碼形式表示的 編碼的標(biāo)準(zhǔn)化:英文字符編碼標(biāo)準(zhǔn) ASCII碼西文字符編碼標(biāo)準(zhǔn) ISO8859漢字編碼標(biāo)準(zhǔn) GB18030、BIG-5統(tǒng)一碼 UNICODE 文字的輸入和輸出文字編碼的處理過程:n 輸入碼機(jī)內(nèi)碼字形碼除輸入和輸出外,計(jì)算機(jī)內(nèi)的任何文字處理都是以機(jī)內(nèi)碼形式進(jìn)行的,如編輯、統(tǒng)計(jì) 關(guān)于編碼的轉(zhuǎn)換從機(jī)器可讀到軟件可讀編碼與軟件對編碼的支持軟件可能不支持所有編碼,若軟件不支持某文本采用的編碼,會(huì)出現(xiàn)處理錯(cuò)誤或得不到預(yù)期的處理結(jié)果。不兼容的編碼之間可以轉(zhuǎn)換: GB BIG-5n GB UNICODE3.3 文本的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition 掃描(scanning)n 將硬拷貝文稿經(jīng)掃描儀掃描轉(zhuǎn)換為圖像格式存儲(chǔ),如:*.bmp、*.jpg、*.tif等。圖像存儲(chǔ)格式的特點(diǎn):點(diǎn)陣存儲(chǔ)w 基本單位是像素(pixel) 光學(xué)字符識別(OCR):將印刷體或手寫體圖像中的文字辨認(rèn)出來,轉(zhuǎn)換為規(guī)定的編碼格式存儲(chǔ),如:ASCII、GB2312、UNICODE等 OCR的基本過程n 圖像處理: 縮放、旋轉(zhuǎn)、去除污痕,目標(biāo)是提高識別率n 版面劃分: 區(qū)分文字、表格板塊以及非文字板塊,判別識別順序,便于按序分別處理n 文字識別: 根據(jù)特定模型及文字識別特征,逐行逐字進(jìn)行識別n 文字編輯: 對識別結(jié)果進(jìn)行編輯,糾正錯(cuò)誤3.4 關(guān)于文件格式和格式轉(zhuǎn)換 常見的文件格式有:n 純文本文件(txt文件)n Web頁面文件(html文件)n Word文檔(doc文件)n Portable Document Format (PDF文檔)n Rich Text Format (RTF文件)n .純文本文件中只能有文字信息,不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語料處理工具僅僅支持純文本文件。要注意文檔格式轉(zhuǎn)換常常會(huì)損失信息。例如圖表、格式信息會(huì)丟失或不能很好保持。4、語料處理工具工作原理P4-現(xiàn)代漢語詞語切分技術(shù) 什么是漢語自動(dòng)切分?通過計(jì)算機(jī)把組成漢語文本的字串自動(dòng)轉(zhuǎn)換為詞串的過程被稱為自動(dòng)切分segmentation)。英語中的切分問題英語中不是完全沒有切分問題,不能僅僅憑借空格和標(biāo)點(diǎn)符號解決切分問題。英語中的切分通常被叫做Tokenization。同漢語相比,英語切分問題較為容易。 為什么要進(jìn)行漢語的切分研究應(yīng)用的要求:語音合成和信息檢索 漢語自動(dòng)切分的方法基于詞表的方法最大匹配法(MM)(特點(diǎn):長詞優(yōu)先,算法非常簡單)1. 正向最大匹配法(MM):從左向右匹配詞典2. 逆向最大匹配法(RMM):從右向左匹配詞典全切分+路徑選擇序列標(biāo)注方法:把切分問題看作給句子中每個(gè)字加標(biāo)記的過程。四個(gè)標(biāo)記:(1) B 詞首 (2) M 詞中(3) E 詞尾 (4)單獨(dú)成詞 S例如:提/B 高/E 人/B 民/E 的/S 生/B 活/E 水/B 平/E 自動(dòng)切分的評價(jià)準(zhǔn)確率(P)切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%召回率(R)切分結(jié)果中正確分詞數(shù)/標(biāo)準(zhǔn)答案中所有分詞數(shù)*100%F-評價(jià)(F-measure 綜合準(zhǔn)確率和召回率的評價(jià)指標(biāo))F-指標(biāo)2PR/(P+R) 漢語切分的關(guān)鍵問題s 切分歧義(消解)n 一個(gè)字串有不止一種切分結(jié)果交集型歧義:從小學(xué)組合型歧義:中將混合型歧義:人才能歧義的分類真歧義:歧義字段在不同的語境中確實(shí)有多種切分形式。偽歧義:歧義字段單獨(dú)拿出來看有歧義,但在真實(shí)語境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應(yīng)該有能力檢測到輸入文本中何時(shí)出現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配(MM+RMM): 同時(shí)采用MM法和RMM法。如果MM法和RMM法給出同樣的結(jié)果,則認(rèn)為沒有歧義,若不同,則認(rèn)為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義,存在盲點(diǎn)最大匹配法不能發(fā)現(xiàn)組合型歧義(長詞優(yōu)先)在一定條件下(鏈長為偶數(shù)),雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義消解基于統(tǒng)計(jì)的歧義消解:在詞圖上尋找統(tǒng)計(jì)意義上的最佳路徑s 未登錄詞識別n 專有名詞新詞 未登錄詞識別困難n 未登錄詞沒有明確邊界n 許多未登錄詞的構(gòu)成單元本身都可以獨(dú)立成詞通常,每一類未登錄詞都要構(gòu)造專門的識別算法:在序列標(biāo)注法中,未登錄詞無需單獨(dú)處理。識別依據(jù)內(nèi)部構(gòu)成規(guī)律(用字規(guī)律)外部環(huán)境(上下文)P5-詞類的自動(dòng)標(biāo)注什么是詞?是由語素構(gòu)成的、能夠獨(dú)立運(yùn)用的最小的語言單位。 隱馬爾可夫模型(HMM)簡介簡介:Hidden Markov Model, HMM)是對馬爾科夫模型的一種擴(kuò)充。隱馬爾科夫模型的基本理論成形于上世紀(jì)60年代末期和70年代初期。(L.E.Baum)70年代,CMU的J.K.Baker以及IBM 的F.Jelinek 等把隱馬爾科夫模型用于語音識別研究。隱馬爾科夫模型在語言信息處理領(lǐng)域中有著廣泛的應(yīng)用。例如隱馬爾科夫模型在詞類自動(dòng)標(biāo)注中的應(yīng)用。馬爾科夫:一階馬爾科夫模型可以描述為一個(gè)二元組( S, A ) ,S是狀態(tài)的集合,而A是所有狀態(tài)轉(zhuǎn)移概率組成的一個(gè)n行n列的矩陣,其中每一個(gè)元素aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率 。在馬爾科夫模型中,給定了觀察序列,同時(shí)也就確定了狀態(tài)轉(zhuǎn)換序列。隱馬爾科夫:如果給定一個(gè)觀察序列(不同顏色的小球序列),不能直接確定狀態(tài)轉(zhuǎn)換序列(壇子的序列),因?yàn)闋顟B(tài)轉(zhuǎn)移過程被隱藏起來了。所以這類隨機(jī)過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程,其中一重隨機(jī)過程不能直接觀察到-通過狀態(tài)轉(zhuǎn)移概率表示。另一重隨機(jī)過程輸出可以觀察到的觀察符號,這由輸出概率來定義。隱馬爾科夫模型的三個(gè)問題:給定HMM l = ( A, B, p )給定觀察序列 O = ( o1 o2 o3 oT )如何有效地計(jì)算出觀察序列的概率,即P(O|l )?(估算問題)給定HMM l = ( A, B, p )給定觀察序列O = ( o1 o2 o3 oT )如何尋找一個(gè)狀態(tài)轉(zhuǎn)換序列 q = (q1 q2 q3 qT ),使得該狀態(tài)轉(zhuǎn)換序列最有可能產(chǎn)生上述觀察序列?(解碼問題)在模型參數(shù)未知或不準(zhǔn)確的情況下,如何根據(jù)觀察序列O = ( o1 o2 o3 oT )求得模型參數(shù)或調(diào)整模型參數(shù)(學(xué)習(xí)問題 或 訓(xùn)練問題)估算觀察序列概率對隱馬爾可夫模型而言,狀態(tài)轉(zhuǎn)換序列是隱藏的,一個(gè)觀察序列可能由任何一種狀態(tài)轉(zhuǎn)換序列產(chǎn)生。因此要計(jì)算一個(gè)觀察序列的概率值,就必須考慮所有可能的狀態(tài)轉(zhuǎn)換序列。求解最佳狀態(tài)轉(zhuǎn)換序列隱馬爾可夫模型的第二個(gè)問題是計(jì)算出一個(gè)能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列 。理論上,可以通過枚舉所有的狀態(tài)轉(zhuǎn)換序列,并對每一個(gè)狀態(tài)轉(zhuǎn)換序列q計(jì)算P(O, q |l),能使P(O, q |l)取最大值的狀態(tài)轉(zhuǎn)換序列q*就是能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列,參數(shù)學(xué)習(xí)隱馬爾科夫模型的前兩個(gè)問題均假設(shè)模型參數(shù)已知,第三個(gè)問題是模型參數(shù)未知,求最佳模型的問題,是三個(gè)問題中最為困難的問題。在模型(l)未知的情況下,如果給定觀察序列的同時(shí),也給定了狀態(tài)轉(zhuǎn)換序列,此時(shí)可以通過有指導(dǎo)的學(xué)習(xí)方法學(xué)習(xí)模型參數(shù)。例如給定下面的訓(xùn)練數(shù)據(jù),可以通過最大似然估計(jì)法估計(jì)模型參數(shù)。 詞類標(biāo)注的語言學(xué)基礎(chǔ)1詞的分類依據(jù)形態(tài)標(biāo)準(zhǔn)Words that function similarly with respect to the affixes they take (their morphological properties) are grouped into classes.分布標(biāo)準(zhǔn)Words that function similarly with respect to what can occur nearby (their “syntactic distributional properties”) are grouped into classes.意義標(biāo)準(zhǔn)()While word classes do have tendencies toward semantic coherence (nouns do in fact often describe “people, places or things”, and adjectives often describe properties), this is not necessarily the case, and in general we dont use the semantic coherence as a definition criterion for part-of-speech.2英語中詞的分類封閉詞類和開放詞類功能詞類和內(nèi)容詞類3漢語中詞的分類主要依據(jù):詞的分布特征或者說語法功能(主要指詞在句法結(jié)構(gòu)里所能占據(jù)的語法位置。)實(shí)詞和虛詞:從功能上看,實(shí)詞可以充當(dāng)主語、謂語和賓語。虛詞則不可以。從意義上看,實(shí)詞有實(shí)在的意義,表示事物、動(dòng)作、行為、變化、性質(zhì)、狀態(tài)、處所、時(shí)間等。虛詞基本只起語法作用,本身多無實(shí)在意義。從數(shù)量上看,實(shí)詞多為開放類,虛詞多為封閉類。體詞和謂詞:實(shí)詞可分成體詞和謂詞。體詞可以做主語和賓語。謂詞主要做謂語。4兼類問題如果同一個(gè)詞具有不同詞類的語法功能,則認(rèn)為這個(gè)詞兼屬不同的詞類,簡稱兼類。5英語詞類標(biāo)記集Brown corpus tagsetPenn treebank tagset UCRELs C5 tagset6漢語詞類標(biāo)記集北京大學(xué)人民日報(bào)語料庫詞類標(biāo)記集國家語委語用所詞類標(biāo)記集 詞類標(biāo)注的基本方法1詞類自動(dòng)標(biāo)注判定自然語言句子中的每個(gè)詞的詞類并給每個(gè)詞賦以詞類標(biāo)記。對于兼類詞,詞類標(biāo)注程序應(yīng)根據(jù)上下文確定兼類詞在句子中最合適的詞類標(biāo)記。(難點(diǎn)所在)詞類自動(dòng)標(biāo)注是深層語言分析的基礎(chǔ)。詞類標(biāo)注程序判定依據(jù):要標(biāo)注的詞的不同詞類的分布,上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計(jì)的、統(tǒng)計(jì)規(guī)則相結(jié)合的)n 基于規(guī)則的詞類標(biāo)注早期均為基于規(guī)則方法基于規(guī)則的詞類標(biāo)注程序工作過程1. 查詞典,給句中各詞標(biāo)記所有可能的詞類標(biāo)記。2. 應(yīng)用規(guī)則,逐步刪除錯(cuò)誤的標(biāo)記,最終只留下正確的標(biāo)記?;陔[馬爾科夫模型的詞類標(biāo)注基于轉(zhuǎn)換的詞類標(biāo)注特點(diǎn)(兼具規(guī)則和統(tǒng)計(jì)兩個(gè)方面的特性)n 應(yīng)用規(guī)則進(jìn)行標(biāo)注,規(guī)則稱為轉(zhuǎn)換。規(guī)則不是人工總結(jié),而是應(yīng)用機(jī)器學(xué)習(xí)的辦法學(xué)習(xí)得到。使用的機(jī)器學(xué)方法通常稱作基于轉(zhuǎn)換的學(xué)習(xí)(Transformation-Based Learning or TBL)。什么是一個(gè)轉(zhuǎn)換(transformation)?n 激發(fā)環(huán)境(triggering environment):描述了應(yīng)用該轉(zhuǎn)換需要滿足的條件n 重寫規(guī)則(rewriting rule): 描述了應(yīng)用規(guī)則所要進(jìn)行的動(dòng)作轉(zhuǎn)換規(guī)則可以視為一種糾錯(cuò)規(guī)則w在轉(zhuǎn)換規(guī)則使用前,待標(biāo)注的句子已經(jīng)進(jìn)行過初步標(biāo)注,轉(zhuǎn)換規(guī)則負(fù)責(zé)改正其中的錯(cuò)誤標(biāo)注激發(fā)環(huán)境:當(dāng)前詞前面一個(gè)詞的詞類是副形詞(ad)重寫規(guī)則:把當(dāng)前詞的詞類從名詞(n)改作動(dòng)詞(v)未登錄詞視作兼類詞,可能是任何一個(gè)詞類,均勻分布n 依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理w 更可能是名詞 不大可能是限定詞等w 將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布n 對于英文等語言可以利用形態(tài)特性(詞綴)、拼寫特性判定(首字母大小寫)P6-屈折語的形態(tài)分析 什么是形態(tài)學(xué)(Morphology)?形態(tài)學(xué)研究屈折語中詞的構(gòu)成規(guī)則詞通常由語素(morpheme)組成。語素是語言中最小的意義單位(minimal meaning bearing unit)。總的來說,語素可以分成兩大類1詞根(root): 提供詞的主要意義n 2詞綴(affix): 提供詞的各種附加意義(修改詞根義或改變詞的語法功能)1) 前綴(prefix): 出現(xiàn)在詞根的前面2) 后綴(suffix): 出現(xiàn)在詞根的后面 語素如何構(gòu)成詞?1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類,詞義通常與原詞根有聯(lián)系(有時(shí)難以預(yù)料),詞根與詞綴派生的結(jié)果也稱作詞干(stem)。n computerize+ation (verbnoun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類,常用來使詞具備數(shù)、時(shí)態(tài)等功能n cat+s walk+ed walk+ing 英語中的屈折變化不規(guī)則變化的詞數(shù)量有限,但多是常用詞大部分詞的變化屬規(guī)則變化 英語中的派生詞英語中派生現(xiàn)象較為復(fù)雜,僅看幾個(gè)例子n 動(dòng)詞、形容詞的名詞化(nominalization):w computerize (V) computerizationw n 從名詞、動(dòng)詞派生出形容詞ww clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨意派生 什么是形態(tài)分析?形態(tài)分析研究如何利用計(jì)算機(jī)把屈折語中的詞分解成語素.為什么要進(jìn)行形態(tài)分析?應(yīng)用的要求:信息檢索、TM中的應(yīng)用、深層英語分析的基礎(chǔ) 形態(tài)分析的技術(shù)基礎(chǔ)n 有限狀態(tài)自動(dòng)機(jī)n 有限狀態(tài)轉(zhuǎn)換機(jī)形式語言有限狀態(tài)自動(dòng)機(jī)和語言構(gòu)建形態(tài)分析器所需要的資源1. 詞典(lexicon):詞干(詞根)和詞綴;詞干(詞根)和詞綴的基本信息2. 形態(tài)知識(morphotactics):語素間的順序關(guān)系哪一類語素可以和哪一類語素組合(例如:名詞后面可以加一個(gè)復(fù)數(shù)語素)3. 正字規(guī)則(orthographic rule or spelling rule):兩個(gè)語素組合時(shí)應(yīng)進(jìn)行怎樣的變化(如:把y改寫為i加es)P8-平行文本的自動(dòng)對齊 什么是平行文本(parallel text)?雙語語料庫是涉及兩種語言的語料庫,由雙語平行文本組成。多語平行文本由多個(gè)單語文本組成,這些文本之間具有翻譯關(guān)系。雙語平行文本由兩個(gè)單語文本組成,這兩個(gè)單語文本互為譯文。多語平行語料庫又稱作翻譯語料庫(translation corpora)。多語平行語料庫包含原文及其譯文,是機(jī)器(輔助)翻譯等多語信息處理的重要資源。 雙語對齊處理(Bilingual Alignment)所謂雙語對齊處理就是在不同語言文本的不同語言單位之間建立對應(yīng)關(guān)系,也就是確定源語言文本中哪個(gè)(些)語言單位和目標(biāo)語言文本中哪個(gè)(些)語言單位互為翻譯關(guān)系。所謂自動(dòng)雙語對齊處理指的是通過一定的算法,由計(jì)算機(jī)在雙語文本間建立對齊關(guān)系。對齊可以在各種語言單位間進(jìn)行,例如:文本級、段落級、句子級、短語級、詞匯級句子級對齊是最基本的對齊(段落對齊可視為一種特殊的句子的對齊)。關(guān)鍵問題:n 機(jī)器不能在理解的基礎(chǔ)上進(jìn)行對齊、n并非嚴(yán)格的一一對應(yīng)、 譯文可能涉及語序的調(diào)整、可能出現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容n 從句子層級看,語序不會(huì)劇烈調(diào)整n 大部分情況是一一對應(yīng) 句子對齊的方法句子對齊的基本方法n 基于長度的對齊方法w 基于單詞的對齊方法兩種方法對齊準(zhǔn)確率都較高,對一般文本,都在90%以上?;陂L度的對齊方法效率優(yōu)于基于單詞的對齊方法?;趩卧~的對齊方法:利用單詞的對應(yīng)關(guān)系,來決定句子的對齊關(guān)系?;陂L度的對齊方法依據(jù):互為翻譯的兩個(gè)句子在長度上高度相關(guān)?;陂L度的對齊方法只利用了文本中句子的長度信息待對齊的兩個(gè)文本不過是兩個(gè)數(shù)字(長度)序列長度對齊的基本原理:基于長度對齊的基本過程可以概括為(1) 枚舉文本間所有可能的對齊(2) 評價(jià)每種對齊模式的合理性(3) 選擇最佳對齊詞匯信息的引入可利用詞匯對應(yīng)信息改善基于長度對齊的效果錨點(diǎn):雙語文本中有明顯對應(yīng)關(guān)系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術(shù)及其原理語料分析(詞頻、搭配和檢索)P7-術(shù)語管理和提?。ù钆浜托g(shù)語自動(dòng)提?。┦裁词谴钆??定義:A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words (the node and the collocate) which co-occur more often than would be expected by chance.搭配構(gòu)成的一般原則廣義搭配:語法上合法的詞語序列狹義搭配:固定搭配和半固定搭配什么是術(shù)語?terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計(jì)方法 與 規(guī)則方法常用的統(tǒng)計(jì)方法n 基于頻率的方法(frequency-based approach)通過統(tǒng)計(jì)兩個(gè)詞(bigram)的共現(xiàn)頻率的方法來發(fā)現(xiàn)并提取搭配。通常最高頻的詞語組合是虛詞的組合??赏ㄟ^詞類組合模式進(jìn)行過濾,剔除高頻的虛詞組合。詞語及其搭配詞未必比鄰出現(xiàn),前述頻率法不能直接應(yīng)用,此時(shí)可以通過定義搭配窗口的方法進(jìn)行解決,統(tǒng)計(jì)詞語和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為-5,+5的搭配窗口n 基于方差的方法(variance-based approach)n 若w1和w2出現(xiàn)的位置相對固定,則二者有可能構(gòu)成一個(gè)搭配。計(jì)算w1和w2兩個(gè)詞在語料庫中位置偏移的均值 m。計(jì)算位置偏移的方差 s2均值和方差刻畫了兩個(gè)詞之間距離的分布情況。如果兩個(gè)詞的距離的方差較小,則有可能二者構(gòu)成一個(gè)搭配。較小的方差意味著兩個(gè)詞之間的距離相對固定。假設(shè)檢驗(yàn)法(hypothesis testing)采用假設(shè)檢驗(yàn)的方法n 首先假設(shè)w1w2是在語料庫中是機(jī)會(huì)共現(xiàn)(co-occur by chance),該假設(shè)通常稱為原假設(shè)(null hypothesis)。基于原假設(shè),利用樣本數(shù)據(jù)進(jìn)行檢驗(yàn),若不能推翻原假設(shè),則w1w2不構(gòu)成搭配,若推翻原假設(shè),則w1w2構(gòu)成搭配,即認(rèn)為備擇假設(shè)成立。若w1w2為機(jī)會(huì)共現(xiàn),則w1、w2相互獨(dú)立,即p(w1w2) = p(w1) p(w2)t-檢驗(yàn)法(基本原則是假定樣本數(shù)據(jù)來自均值為 m的分布,然后通過對比樣本均值和預(yù)期的均值m之間的差異,判斷樣本是否來自于所假設(shè)的分布,從而推斷出原假設(shè)是否成立。t-檢驗(yàn)和其他檢驗(yàn)常用來給搭配排序,即t-值越大,w1w2越可能是一個(gè)搭配。)x2檢驗(yàn)法(主要思想是對比預(yù)期頻率以及觀察頻率,若二者差別較大,則拒絕原假設(shè)。) 互信息法 (mutual information)一個(gè)事件中所蘊(yùn)含的關(guān)于另外一個(gè)事件的信息量兩個(gè)事件之間的關(guān)聯(lián)度w 若兩個(gè)事件獨(dú)立,則有I(x,y)=0w 若兩個(gè)事件高度依賴,一個(gè)出現(xiàn)必然意味著另外一個(gè)事件出現(xiàn)。互信息對于兩個(gè)事件是否獨(dú)立可以給出較好的判別。互信息值接近0兩個(gè)事件相互獨(dú)立.但對于兩個(gè)事件互相依賴,僅依靠互信息值有缺陷。n 互信息值與事件的頻率有關(guān)n 低頻率事件有可能獲得較高的互信息值,因而對于稀疏數(shù)據(jù),互信息結(jié)果未必可靠領(lǐng)域性處理停用詞(stop list) 領(lǐng)域無關(guān)詞匯在任何領(lǐng)域都以相同的規(guī)律出現(xiàn)翻譯記憶技術(shù)P9-機(jī)器翻譯的原理和方法 什么是機(jī)器翻譯及其研究目標(biāo)研制出能把一種自然語言(源語言)的文本翻譯為另外一種自然語言(目標(biāo)語言)的文本的計(jì)算機(jī)軟件系統(tǒng)。全自動(dòng)高質(zhì)量的機(jī)器翻譯系統(tǒng)(FAHQMT)仍將是人類一個(gè)遙遠(yuǎn)的夢。 機(jī)器翻譯的基本方法n 1基于規(guī)則的機(jī)器翻譯方法(傳統(tǒng)的機(jī)器翻譯方法)w 直接翻譯法(逐詞進(jìn)行翻譯,無需對源語言文本進(jìn)行分析,對翻譯過程的認(rèn)識過于簡化)w 中間語言法一種中間表達(dá),通常是一種句法-語義表達(dá),中間語言獨(dú)立于任何具體的自然語言。源文本經(jīng)過深層分析得到源語言的中間語言表示。 再由該中間表示生成目標(biāo)語文本。 翻譯過程為兩個(gè)階段。中間語言法在理論上非常經(jīng)濟(jì),可有效減少翻譯模塊的數(shù)量??砂裯(n-1)個(gè)直接翻譯模塊減少為2n個(gè)翻譯模塊。(目前沒有特別成功的基于中間語言的機(jī)器翻譯系統(tǒng)。)w 轉(zhuǎn)換法分析源語言文本,得到其源語言內(nèi)部表達(dá)n 將源語言內(nèi)部表達(dá)轉(zhuǎn)換成目標(biāo)語內(nèi)部表達(dá)n 根據(jù)目標(biāo)語內(nèi)部表達(dá)生成目標(biāo)語文本n翻譯過程分成三個(gè)階段(商業(yè)上最為成功的方法,目前絕大部分商品化機(jī)器翻譯系統(tǒng)采用轉(zhuǎn)換式機(jī)器翻譯方法。)規(guī)則系統(tǒng)中的知識表示開發(fā)一個(gè)基于規(guī)則的機(jī)器翻譯系統(tǒng),首先要設(shè)計(jì)一個(gè)知識表示系統(tǒng),將翻譯過程中所有需要的知識以計(jì)算機(jī)可以操作的形式表述出來。一般而言,翻譯過程往往需要下述一些知識的支撐:(1) 源語言知識。系統(tǒng)利用源語言知識分析源語言句子,得到源語言句子的結(jié)構(gòu)和意義。(2) 目標(biāo)語言知識。系統(tǒng)利用目標(biāo)語言知識,產(chǎn)生可以接受的目標(biāo)語言句子。(3) 源語言到目標(biāo)語言的對譯知識。在基于轉(zhuǎn)換的系統(tǒng)中,系統(tǒng)需要根據(jù)各種級別的對應(yīng)關(guān)系來完成源語言到目標(biāo)語言的轉(zhuǎn)換。最基本的是詞之間的對譯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西安文理學(xué)院《思辨英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 新疆農(nóng)業(yè)大學(xué)《廣播節(jié)目播音主持》2023-2024學(xué)年第二學(xué)期期末試卷
- 濮陽科技職業(yè)學(xué)院《熱流體與冶金傳輸基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 新鄉(xiāng)工程學(xué)院《衛(wèi)生財(cái)務(wù)管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 三峽大學(xué)科技學(xué)院《食品質(zhì)量與安全導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 淄博師范高等??茖W(xué)?!队袡C(jī)合成與制備綜合實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 泉州信息工程學(xué)院《設(shè)計(jì)效果圖》2023-2024學(xué)年第二學(xué)期期末試卷
- 寧夏民族職業(yè)技術(shù)學(xué)院《計(jì)量經(jīng)濟(jì)學(xué)課程設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江省溫州市文成縣黃坦中學(xué)2025年初三下學(xué)期期終調(diào)研測試生物試題試卷含解析
- 山西省忻州市定襄縣市級名校2025年初三聯(lián)考(三)英語試題含答案
- 數(shù)學(xué)全等三角形課件++2024-2025學(xué)年北師大版七年級數(shù)學(xué)下冊
- LBT 235-2022綠色食品設(shè)施甜櫻桃生產(chǎn)操作規(guī)程
- 編織老師考試試題及答案
- 2025年03月重慶市涪陵區(qū)新妙鎮(zhèn)選聘本土人才1人筆試歷年參考題庫考點(diǎn)剖析附解題思路及答案詳解
- 2025-2030巴基斯坦基礎(chǔ)建設(shè)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報(bào)告
- 攀枝花2025年四川攀枝花市東區(qū)事業(yè)單位春季引才(4人)筆試歷年參考題庫附帶答案詳解
- GB/T 27060-2025合格評定良好實(shí)踐指南
- 2025年《保障中小企業(yè)款項(xiàng)支付條例》學(xué)習(xí)解讀課件
- 2025年國家電投集團(tuán)內(nèi)蒙古能源有限公司招聘筆試參考題庫含答案解析
- 2025年保安證考試常見試題與答案
- 2024年四川眉山中考滿分作文《時(shí)光剪影中的那抹溫柔》
評論
0/150
提交評論