人工智能-第7章-自然語言處理技術7_第1頁
人工智能-第7章-自然語言處理技術7_第2頁
人工智能-第7章-自然語言處理技術7_第3頁
人工智能-第7章-自然語言處理技術7_第4頁
人工智能-第7章-自然語言處理技術7_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

人工智能第7章自然語言處理技術7.7機器翻譯7.8自動文摘7.9語音識別17.7機器翻譯

7.7.1概述方法一:將抽象表達設計為一種與具體語種無關的“中間語言”,它可以作為許多自然語言的中介。翻譯分成兩個階段:從源語言到中間語言,從中間語言到目標語言。方法二:將源語言表達轉化成為目標語言的等價表達形式。翻譯分成三個階段:分析輸入文本并將它表達為抽象的源語言;將源語言轉換成抽象的目標語言;最后生成目標語言。2商業(yè)翻譯系統(tǒng)可分為:直接型、中間語言型和轉換型。大多數(shù)著名的大型機器翻譯系統(tǒng)本質(zhì)上都是“直接翻譯”型的系統(tǒng),如Systran

Logos

FujitsuAtlas該系統(tǒng)在開始設計時只能完成從俄文到英文的翻譯,但現(xiàn)在它已經(jīng)可以完成很多語種之間的互譯。Logos開始只針對德語到英語的翻譯市場,而現(xiàn)在可以將英語翻譯成法語、德語、意大利語,以及將德語翻譯成法語和意大利語。該系統(tǒng)至今仍局限于英日、日英的翻譯。3最重要的大型機“轉換型”機器翻譯系統(tǒng)是METAL。目前最有名的兩個“轉換型”系統(tǒng):Grenoble的Ariane和歐洲共同體委員會提供基金的Eurotra項目。80年代末,日本政府出資支持開發(fā)用于亞洲語言之間互譯的中間語言系統(tǒng),中國、泰國、馬來西亞和印度尼西亞等國的研究人員均參加了這一研究。進入20世紀90年代后,在歐美、日本等發(fā)達國家,機器翻譯不僅用于文字處理系統(tǒng),而且正在朝著智能聲控翻譯通信技術的方向發(fā)展。如電話定票機器翻譯系統(tǒng)。4日本——翻譯復印機,機內(nèi)裝有容量為3.7萬個英文詞量的數(shù)據(jù)庫,能逐字逐句地把英文譯成日文。日本、美國和德國——自動翻譯電話。日本——通過計算機與通信網(wǎng)絡連接的自動翻譯電話。5種語言(英、法、德、意和西班牙)進行交談——語音翻譯機,它內(nèi)存有1萬個單詞,6.5萬個短語,發(fā)出的聲音標準、清晰、易懂。美國——旅游用袖珍翻譯機器,它準備了2250個常用短語(15種語言,每種各150個短語)。5中國:軍事科學院在1987研制開發(fā)出了“KY-l”實用型全文與題錄兼容的英漢機器翻譯系統(tǒng),即經(jīng)過中軟商品化后的“譯星全文翻譯系統(tǒng)”。1994年,國防科技大學陳火旺院士組織研制成了英漢機器翻譯系統(tǒng)Matrix,并進行了商品化。陳火旺院士61994年,國防科技大學研制成了英漢機器翻譯系統(tǒng)Matrix,并進行了商品化。完成人:史曉東

1966年12月出生,江蘇江陰人,國防科技大學博士畢業(yè)。2001年5月開始,擔任聯(lián)合國大學UNL中心中國語言中心副主任。2002年加盟廈門大學計算機科學系,現(xiàn)任廈門大學語言技術中心副主任。史曉東71994年5月,Matrix英漢機器翻譯系統(tǒng),在國家863-306主題專家組組織的智能接口評測獲得第二名。1995年5月,Matrix系統(tǒng)參加了Intel公司與中國軟件行業(yè)協(xié)會舉辦的第一屆中國應用軟件大獎賽,獲得了二等獎,進入了加拿大市場,并在當年863-306主題的第二次評測中獲得第一名。1998年3月,Matrix1.0和他新開發(fā)的Light1.0Beta3囊括863-306英漢機器翻譯評測前兩名。1999年5月,推出國內(nèi)第一家免費網(wǎng)頁翻譯網(wǎng)站—“看世界”,開創(chuàng)了國內(nèi)網(wǎng)絡翻譯的新時代。1999年7月,桑夏公司以他為主開發(fā)的英漢機器翻譯技術作價2000萬元,與燃氣股份合資成立“海南桑夏環(huán)球網(wǎng)絡有限公司”,主推“看世界”網(wǎng)站,致力于解決華人上網(wǎng)的語言障礙。8中國科學院計算所等單位聯(lián)合開發(fā)研制了“863智能型英漢翻譯系統(tǒng)”,該系統(tǒng)實現(xiàn)了對原文的語法、語義和常識的一體化分析,具有面向多文種翻譯軟件環(huán)境;臺灣地區(qū)的“功學電腦自動翻譯系統(tǒng)”,可使用戶在“電子資訊”、“歷史法律”、“軍事”等方面進行計算機翻譯。其他“通譯”、“金山快譯”、“東方快車”、“雅信CAT”、“翻譯網(wǎng)上通2000”、“讀寫通”等。9東北大學自然語言處理實驗室成立于八十年代初,在姚天順教授和朱靖波教授的領導下,主要從事計算語言學的研究,包括語言分析、文本信息智能處理技術、多國語機器翻譯等領域的研究工作。2002年5月,科技著作《自然語言處理》——一種讓計算機懂得人類語言的研究,第二版由清華大學出版社出版。10實驗室二十多年積累的資源:一百萬的漢語樹庫和五百萬帶標注的中文語料十七萬詞匯量的電子中文詞典八萬詞匯量的電子英文詞典二十六種專業(yè)的電子詞典二十六萬詞匯量的英文詞庫及其操作軟件三千中國人姓氏庫四千基本姓氏庫三十萬特征庫(動態(tài)語義庫)中文名詞和動詞Wordnet

合作開發(fā)的中-英-韓多國語言機器翻譯系統(tǒng)中-英文雙向機器翻譯系統(tǒng)中間語言、規(guī)則描述語言及其編譯器的完整設計11機器翻譯離工業(yè)化應用的標準還相差甚遠。國內(nèi)某些機器翻譯軟件稱譯文的可讀性最高達到90%以上,但實際上機器翻譯譯文的可讀性也只在70%,而正確率也只在20%左右。有太多讓人不明白的地方;文不對題、莫名其妙譯文比比皆是,正是“滿篇洋文難不住,滿篇譯文看不懂”。12金山快譯不是人才學人才學翻譯:Isn'ttalentedperson'sscholarabilityandlearning再翻譯:沒被才能人的學者能力和學問再翻譯:Didn'tdrivethencantheperson'sscholar'sabilityandtheknowledge13“不是人,才學人才學”翻譯:Isn'taperson,abilityandlearningperson'sabilityandlearning“不是人才,學人才學”翻譯:Isn'tatalentedperson,scholarabilityandlearning14Effects-BasedOperations賁可榮翻譯:

基于效果作戰(zhàn)機器翻譯:

以效果為基礎的操作機器將“基于效果作戰(zhàn)”翻譯為:Battleaccordingtotheresult再翻譯:依照結果搏斗15167.7.2機器翻譯理論與方法高質(zhì)量的翻譯系統(tǒng)不但需要對原文的內(nèi)在組成、語法結構進行把握,而且需要了解各組成單位之間復雜的相互作用關系,即語法、語義和語用等知識。上下文環(huán)境、相關的常識都是正確翻譯的必需知識。翻譯系統(tǒng)也逐漸從詞法型、語法型發(fā)展到語義型。計算機雖然不能像人一樣進行思考,但肯定能綜合、積累人類的聰明智慧,完成一定的翻譯工作。17機器翻譯系統(tǒng)類型:1.直譯式翻譯系統(tǒng)(directtranslationMTsystems)透過快速的分析和雙語詞典,將原文譯出,并且重新排列譯文的詞匯,以符合譯文的句法。182.基于規(guī)則翻譯系統(tǒng)(rule-basedMTsystems)先分析原文內(nèi)容,產(chǎn)生原文的句法結構,再轉換成譯文的句法結構,最后再生成譯文。它通過識別、標注兼類多義詞的詞類,對多義詞意義進行排歧;對某些同類詞性的多義詞再按其詞法規(guī)則不同消除歧義。依靠該技術的系統(tǒng),如譯星、華建和史曉東等的英漢翻譯系統(tǒng)。當前主流的機器翻譯都是基于規(guī)則的機器翻譯系統(tǒng)。193.中介語式翻譯系統(tǒng)(inter-lingualMTsystems)類似轉換式系統(tǒng),但會先生成一種中介的表達方式,而非特定語言的結構;再由中介的表達式,轉換成譯文。程序語言的編譯,也經(jīng)常采取此種策略。204.知識庫翻譯系統(tǒng)(knowledge-basedMTsystems)此類研究多半有限定范圍,并且使用知識獲取工具,自動或半自動的大量收集相關知識,以充實知識庫的內(nèi)容。5.范例式翻譯系統(tǒng)(example-basedMTsystems)將過去的翻譯結果,當成范例,產(chǎn)生一個范例庫。在翻譯一段文字時,參考范例庫中近似的例子,并處理差異處。216.統(tǒng)計式翻譯系統(tǒng)(statistics-basedMTsystems)利用漢莎語料庫(Hansardcorpus,英法雙語語料庫),總共有

2,205,733英法句對作為訓練語料,實現(xiàn)了英語到法語的統(tǒng)計機器翻譯系統(tǒng)。2003年美國的計算語言學者們不滿足現(xiàn)有的,多達2000萬詞的英國國家語料庫帶標語料庫的需求,發(fā)布了美國國家語料庫(VER1)。這是一個具有11,508,216詞匯的帶標語料庫。由兩部分內(nèi)容組成:其中口語3,224,388字,書面語8,283,828字。

227.混合式翻譯系統(tǒng)(hybridMTsystems)采用多種策略。如通譯公司經(jīng)過多年的理論和應用實驗研究,總結出了“基于規(guī)則,重在語料”的機器翻譯思路。思想:(1)系統(tǒng)需要強大的語言知識的支持。詞法和語法規(guī)則的研究與歸納總結是機器翻譯的基礎。規(guī)則源于語言應用環(huán)境,必須以豐富的自然語言語料庫為基礎,應該采用KDD和數(shù)據(jù)挖掘技術從大規(guī)模語料庫中提取規(guī)則。23(2)自然語言中有許多不規(guī)則的表達方式,必須用翻譯記憶技術不斷豐富和完善。自然語言包羅萬象,但如果針對特定的專業(yè)領域,其歧義多解的現(xiàn)象就會大大減少。(3)專業(yè)化的研發(fā)道路必須緊密結合行業(yè)用戶,根據(jù)行業(yè)用戶的需求設計產(chǎn)品。(4)軟件技術的支持是機器翻譯實用化的根本保障。(5)系統(tǒng)的設計必須具有長遠的戰(zhàn)略眼光。程序與語言知識數(shù)據(jù)分離的高度模塊化設計是必由之路。248.翻譯記憶(TM,TranslationMemory)建立翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源,給出參考譯文。翻譯記憶庫同時在后臺不斷學習和自動儲存新的譯文。翻譯記憶支持多語種之間的雙向互譯。德國產(chǎn)品基于UNICODE,支持55種語言。257.8自動文摘自動文摘四種:自動摘錄、基于理解的自動文摘、信息抽取和基于結構的自動文摘。1、自動摘錄將文本視為句子的線性序列,將句子視為詞的線性序列。分4步進行:①計算詞的權值;②計算句子的權值;③對所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;④將文摘句按照它們在原文中的出現(xiàn)順序輸出。計算權值的依據(jù)是文本的6種特征:詞頻、標題、位置、句法結構、線索詞和指示性短語。262、基于理解的自動文摘以NLP技術為基礎的文摘方法。利用語言學知識獲取語言結構,利用領域知識進行判斷推理,得到文摘的意義表示并生成摘要。基本步驟:語法分析、語義分析、語用分析信息提取、文本生成。篇章意義是原文分析的結果和文摘生成的依據(jù),用腳本、概念從屬結構、框架、一階謂詞等表示。273、信息抽取以文摘框架為中樞,分為選擇與生成兩個階段。文摘框架是一張申請單,它以空槽的形式提出應從原文中獲取的各項內(nèi)容。在選擇階段利用特征詞從文本中抽取相關的短語或句子填充文摘框架,在生成階段利用文摘模板將文摘框架中的內(nèi)容轉換為文摘輸出。文摘模板是帶有空白部分的現(xiàn)成的套話,其空白部分與文摘框架中的空槽相對應。由于文摘框架的編寫完全依賴于領域知識,必須為每個領域都編寫一個文摘框架,先進行主題識別,根據(jù)主題調(diào)用相應的文摘框架。284、基于結構的自動文摘篇章是有機的結構體,其中的不同部分承擔著不同的功能,彼此存在錯綜復雜的關系。通過分析篇章結構來找出核心部分。不同學者用來識別篇章結構的手段也有很大差別。它更符合科技文獻文摘編寫的標準。297.9語音識別將語音直接轉換為文檔。需要使用者訓練識別器。某些現(xiàn)代航空器使用有限的詞匯,允許飛行員使用語音發(fā)出命令。計算機上的軟件包也能對語音命令產(chǎn)生反應。目前無法處理下面句子:BackupalltheprogramfilesfortheprojectsIhaveworkedontoday.30這樣的命令需要自然語言理解。如果理解系統(tǒng)的輸入是語音,那么復雜度就要大得多。當對單個單詞進行識別時,口語有很多的不確定性。很多情況下,當與朋友進行交流時,可以猜測他所說的是哪一個單詞,這種猜測往往是根據(jù)上下文提供的信息而得到的。與朋友交談時,說話者還可以使用音調(diào)、面部表情和手勢等來傳達很多信息。說話者會經(jīng)常更正他所說過的話,而且會使用不同的詞來重復某些信息。因為不同的詞可能發(fā)音相同,這將使問題變得更復雜。如:fare和fair,mail和male等。31首先從聲波分析開始,抽取與構成單詞的發(fā)音單元相關的特征。發(fā)音單元的清晰特性是不確定的,在最終的單詞識別階段,采用一個模型,將已提煉出的發(fā)音單元序列與單詞序列進行匹配。327.9.1組成單詞讀音的基本單元詞語聲波,信號處理器模擬信號,能量、頻率等特征。特征音素(單個語音單元)“可能的”音素序列單詞序列。語音的產(chǎn)生要求將單詞映射為音素序列,然后將之傳送給語音合成器,單詞的聲音通過說話者從語音合成器發(fā)出。語調(diào)計劃器,使得合成器知道如何使用聲音變化,而不是應用不自然的單調(diào)對話來講話。33構成單詞發(fā)音的獨立單元是音素。對于一種語言,如英語,必須將聲音的不同單元識別出來并分成組。分組時,應該確保語言中的所有單詞都能被區(qū)分,兩個不同的單詞最好由不同的音素組成。下面列出了幾個音素:[b]bin[p]pin[th]thin[1]1ip[er]bird[ay]iris34音素可能由于上下文不同而發(fā)音不同。如:three中音素th的發(fā)音不同于then中th的發(fā)音。音素變體。抽取讀音的差別將其歸入音位的通用分組。音位寫在斜線中間,例如:/th/是一個音位,依據(jù)上下文的不同而有不同讀音。單詞可以在音位層表示,若需要更多信息,可在音素變體層表示。357.9.2信號處理聲波特征:1)振幅,它可以衡量某一時間點的空氣壓力;2)頻率,它是振幅變化的速率。振動膜離開它的固定位置的偏移量就是振幅的度量。當聲波被采樣時,繪制成一個x-y平面圖,x軸表示時間,y軸表示振幅,每秒鐘聲波重復的次數(shù)為頻率。每一次重復是一個周期,所以,頻率為10意味著1秒內(nèi)聲波重復10次——每秒10個周期或更一般地表示為10Hz。36

聲音的音量與功率的大小有關,與振幅的平方有關。從麥克風所捕獲的數(shù)據(jù)包含了所需單詞的信息。應該將信號分割成若干塊,從塊中抽取大量不連續(xù)的值,這些不連續(xù)的值通常稱為特征。信號的每個塊稱為幀,為了保證可能落在幀邊緣的重要信息不會丟失,應該使幀有重疊。37人們說話的頻率在1OkHz以下(每秒10000個周期)。每秒得到的樣本數(shù)量應是需要記錄的最高語音頻率的兩倍。從理論上說,這樣做可以使頻率不會丟失(見圖7-9)。當使用2OkHz的采樣頻率時,標準的一幀為10ms,包含200個采樣值。每個采樣值都是一個實數(shù)值,表示一種強度。每個實數(shù)值都將被轉化為一個整數(shù)存儲起來,這樣做稱做量化。實數(shù)值必須進行四舍五入。采樣將連續(xù)的信號轉換為一串不連續(xù)的值。下一階段是要獲取數(shù)字化的信號并抽取特征。38圖7-9實線正弦波是真實波,它在每個標虛線的波周期內(nèi)完成3個周期。黑色圓圈表示以真實波兩倍的頻率所獲取的樣本,這個采樣捕獲了真實的正弦波。星號表示正在被采樣,以這樣的采樣率,可認為得到的是虛線波,它是真實波頻率的三分之一。這表明,采樣頻率應為所需測量最高頻率的兩倍39圖7-10左圖的波是右圖的三個正弦段波的組合從數(shù)字化信號中抽取特征的一種方法是進行傅里葉變換。一段聲波可以表示為正弦波的組合,如圖7-10所示。每個正弦波都有頻率與振幅。傅里葉變換可以用來識別組成聲波時影響最大的頻率,抽取出的頻率集合稱做頻譜。40圖7-11左圖的波由三個正弦波組成,它們的振幅和頻率都顯示于右圖的頻譜中。頻譜中有三個峰值,每個峰值都在正弦波的頻率中心,這段頻譜是由數(shù)字化采樣波經(jīng)過傅里葉變換得到的在圖7-11中的波已被數(shù)字化采樣,它是3個正弦波之和:2sin(2π*50t)+sin(2π*120t)+4sin(2π*200t)這里t是時間,該波的頻譜如圖7-11所示。41在語音識別中,常用線性預測編碼(LPC)的技術來抽取特征。傅里葉變換可用來在后一階段中提取附加信息。LPC把信號的每個采樣表示為前面采樣的線性組合。預測需要對系數(shù)進行估計,系數(shù)估計可以通過使預測信號和附加真實信號之間的均方誤差最小來實現(xiàn)。頻譜代表波不同頻率的組成成分,它可以利用傅里葉變換、LPC或其他方法得到。42頻譜能識別出與不同音素相匹配的主控頻率,這種匹配可以產(chǎn)生不同音素的可能性估計。語音處理包括從一段連續(xù)聲波中采樣,將每個采樣值量化,產(chǎn)生一個波的壓縮數(shù)字化表示。采樣值位于重疊的幀中,對于每一幀,抽取出一個描述頻譜內(nèi)容的特征向量。然后,音素的可能性可通過每幀的向量來計算。437.9.3識別下一個任務是識別這些特征所代表的單詞。識別系統(tǒng)的輸入是特征序列——單詞對應于字母序列。如果要分析一個大的單詞庫,就要識別某種字母序列比其他字母序列更有可能發(fā)生的模式。例如:字母y跟在ph后面出現(xiàn)的概率要大于跟在t后面出現(xiàn)的概率。馬爾可夫模型是表示序列可能出現(xiàn)的一種方法。44圖7-12是馬爾可夫模型的一個例子。模型中有4個狀態(tài),分別標記為1~4。邊代表從一個狀態(tài)到另一個狀態(tài)的轉移概率。在圖7-12中,狀態(tài)4不會再轉向其他狀態(tài),被認為是終止狀態(tài)。對于任何狀態(tài),只能順著箭頭的方向進行狀態(tài)轉移,而從一個狀態(tài)發(fā)出的所有箭頭上的概率之和為1。狀態(tài)可以代表組成單詞的字母,但這里只討論通常的狀態(tài)。45○10.5○20.7○40.5○60.6○20.3○40.1○60.4○20.2○30.2○50.2○70.1○80.2圖7-12一個隱馬爾可夫模型。圓圈表示狀態(tài),邊表示狀態(tài)之間的合法轉換。每條邊上有一個權值,表示從一個狀態(tài)轉移到另一個狀態(tài)的概率。下面的值是觀察權值,每個狀態(tài)可以發(fā)出它下面列出的符號之一,權值是概率,顯示發(fā)出每個符號的相對頻率。注意:一個符號可以被多個狀態(tài)發(fā)出46圖7-12中的模型可以看做一個序列生成器。例如,若從狀態(tài)1開始,在狀態(tài)4結束,下面是可能生成的一些序列:12341223334123341222234任何序列生成的概率都可以計算出來,生成某個序列的概率就是生成該序列路徑上的所有概率之積。47例如,對于序列:12334路徑是下列邊的集合:1-2,2-3,3-3,3-4概率為:0.9*0.5*0.4*0.6=0.108某些序列比其他序列生成的可能性更高。馬爾可夫模型的關鍵假設是下一個狀態(tài)只取決于當前狀態(tài)。487.9.4隱馬爾可夫模型在討論有關語音識別的具體問題前,首先對隱馬爾可夫模型(HMM,HiddenMarkovModel)進行一般性介紹。在語音識別中,輸入數(shù)據(jù)是從聲波中抽取出的特征。馬爾可夫模型中的狀態(tài)相當于聲音的單元(如音素)。使用者不知道輸入的特征相當于什么狀態(tài)。即便特征并不準確地對應于隱馬爾可夫模型中的狀態(tài),使用者也可以對可能的狀態(tài)做出較好的猜測。盡管音素有一些共同的聲音特征,但是不同的音素發(fā)音不同,音素間的差異可以使人們猜出某個音素到底是什么。于是,給定一個特征,可以知道哪些狀態(tài)更有可能與此特征相對應。49盡管不能確定到底是哪一個狀態(tài),但至少問題變得容易了,因為很多狀態(tài)己經(jīng)被排除在外。假設有一個特征序列,識別器獲取了第一個特征,它并不清楚這個特征相當于哪一個狀態(tài),但它可以通過猜測來減少可能狀態(tài)的數(shù)目。然后,識別器獲取了第二個特征,繼續(xù)減少可能的狀態(tài)數(shù)。在獲取第三個特征后仍然以這種方式繼續(xù)。當識別器獲取更多的特征時,將能進一步減少可能出現(xiàn)的狀態(tài)數(shù)量,因為它知道某些特征可能會更頻繁地同時出現(xiàn)——識別器有一些有關特征序列,以及一個音素在另一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論