第三章自然語言的處理_第1頁
第三章自然語言的處理_第2頁
第三章自然語言的處理_第3頁
第三章自然語言的處理_第4頁
第三章自然語言的處理_第5頁
已閱讀5頁,還剩148頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第三章自然語言的處理第1頁,課件共153頁,創(chuàng)作于2023年2月3.1基本概念第2頁,課件共153頁,創(chuàng)作于2023年2月信息的主要載體-語言語言的兩種形式-文字和聲音

文字和聲音作為語言的兩個不同形式的載體,所承載的信息占整個信息組成的90%以上。如何讓計算機實現(xiàn)人們希望實現(xiàn)的語言處理功能?

如何讓計算機真正實現(xiàn)海量的語言信息的自動處理和有效利用?第3頁,課件共153頁,創(chuàng)作于2023年2月自然語言處理(NaturalLanguageProcessing,簡稱NLP)是利用計算機為工具,對人類特有的書面形式和口頭形式的自然語言的信息進行各種類型處理和加工的技術。

——馮志偉《自然語言的計算機處理》NLP是用計算機通過可計算的方法對自然語言的各級語言單位(字、詞、語句、篇章等)進行轉換、傳輸、存儲、分析等加工處理的理論和方法。

第4頁,課件共153頁,創(chuàng)作于2023年2月其它名稱

自然語言理解(NaturalLanguageUnderstanding)

計算語言學(ComputationalLinguistics)現(xiàn)代語言學的一大分支,它是用計算機理解、生成和處理自然語言,即它的研究范圍不僅涵蓋語言信息的處理,還包括語言的理解和生成。第5頁,課件共153頁,創(chuàng)作于2023年2月研究語言的目的研究語言的目的為語言構造出足夠精細的計算模型,以便能夠寫出由計算機程序來完成的涉及自然語言的各種任務。計算模型的用途作為科學研究的目的-可以探索語言交流的本質;作為實用的目的-能夠實現(xiàn)有效的人機通信。終極目標能夠給出一些模型,這些模型在完成閱讀、寫作、聽、說等任務時能夠接近人的行為。第6頁,課件共153頁,創(chuàng)作于2023年2月

不關注與所使用的特定媒介相關的問題,例如手寫輸入、鍵盤輸入或語音輸入的問題。

關注在詞語識別完成后理解和使用語言的過程。

第7頁,課件共153頁,創(chuàng)作于2023年2月NLP的歷史20世紀50年代起步提出機器翻譯等重要問題50年代-60年代采用模式匹配法和文法分析方法對基于理解和基于統(tǒng)計方法的討論60年代后期衰落70-80年代采用了面向受限域的深入理解方法80年代后期至今統(tǒng)計方法占據(jù)主流大規(guī)模語料可用,計算機性能大幅提高互聯(lián)網(wǎng)的迅速發(fā)展為NLP提供了實驗數(shù)據(jù)來源和新的應用場景第8頁,課件共153頁,創(chuàng)作于2023年2月3.2自然語言處理技術可以為我們做什么?1、信息檢索.hk?微軟:106,000,000條(8年前2,060,000條)微軟,亞洲研究院:1,060,000條微軟,亞洲研究院,研究方向:116,000條微軟,亞洲研究院,自然語言處理:38,900條?08年7月一萬億個網(wǎng)頁,每天數(shù)十億增加?獲得的信息只有1%被有效利用第9頁,課件共153頁,創(chuàng)作于2023年2月“框”計算

“框計算”是2009年8月18日,百度董事長兼首席執(zhí)行官李彥宏在2009百度技術創(chuàng)新大會上所提出的全新技術概念。用戶只要在“百度框”中輸入服務需求,系統(tǒng)就能明確識別這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應用提供商處理,最終精準高效地返回給用戶相匹配的結果。這種高度智能的互聯(lián)網(wǎng)需求交互模式,以及“最簡單可依賴”的信息交互實現(xiàn)機制與過程,稱之為“框計算”。第10頁,課件共153頁,創(chuàng)作于2023年2月2、借助于語言信息處理的web智能/第11頁,課件共153頁,創(chuàng)作于2023年2月第12頁,課件共153頁,創(chuàng)作于2023年2月微軟亞洲研究院——人立方第13頁,課件共153頁,創(chuàng)作于2023年2月輸入“王菲”得到的人物關系圖第14頁,課件共153頁,創(chuàng)作于2023年2月Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)譯:精神是愿意的,但骨肉是微弱的。(Systran,現(xiàn)在已經(jīng)能夠正確翻譯)Ex-2:3、機器翻譯第15頁,課件共153頁,創(chuàng)作于2023年2月在網(wǎng)絡上輸入“問句”,自動給出精確地答案。自動問答系統(tǒng)的結構三個模塊:提問處理模塊(Question-Processing);文獻處理模塊(Document-Processing);答案的提取和構造模塊(AnswerExtractionandFormulation)?!T志偉4、自動問答系統(tǒng)第16頁,課件共153頁,創(chuàng)作于2023年2月如“給我找出所有有關在1986年到1990年之間曾經(jīng)嘗試而最終失敗且金額超過1億美元的融資收買的文章?!碧幚矸椒ǎ?、對數(shù)據(jù)庫的每篇文章建立一種表示形式2、這種表示形式能用于后續(xù)的推理

5、復雜的檢索任務第17頁,課件共153頁,創(chuàng)作于2023年2月輸入:美歐貿(mào)易摩擦升級識別結果:美歐貿(mào)易摩擦生機輸入:新技術的發(fā)展日新月異識別結果:新紀錄的發(fā)展日新月異6、語音識別第18頁,課件共153頁,創(chuàng)作于2023年2月信息過濾,信息安全文摘生成問答系統(tǒng),人機交互語言教學文字輸入,文字編輯與排版語音翻譯網(wǎng)絡內(nèi)容管理與知識發(fā)現(xiàn)…

第19頁,課件共153頁,創(chuàng)作于2023年2月1.3關于“理解”的理解

他說:“她這個人真有意思(funny)”。她說:“他這個人怪有意思的(funny)”。于是人們以為他們有了意思(wish),并讓他向她意思意思(express)。他火了:“我根本沒有那個意思(thought)”!她也生氣了:“你們這么說是什么意思(intention)”?事后有人說:“真有意思(funny)”。也有人說:“真沒意思(nonsense)”?!渡顖蟆?994.11.13.第六版第20頁,課件共153頁,創(chuàng)作于2023年2月人腦對語言的理解是一個復雜的思維過程。自然語言理解技術同多個學科有著千絲萬縷的關系。語言學:研究語言本身的結構語言心理學:研究人類生成和理解語言的過程邏輯學:計算機科學人工智能數(shù)學與統(tǒng)計學…

…第21頁,課件共153頁,創(chuàng)作于2023年2月一種測試機器是不是具備人類智能的方法。圖靈測試第22頁,課件共153頁,創(chuàng)作于2023年2月1.4自然語言理解研究的基本問題研究的層次——語法學:研究語句的組成結構,包括詞和短語

在語句中的作用等。為什么一句話可以這么說也可以那么說?第23頁,課件共153頁,創(chuàng)作于2023年2月研究的層次——語義學:研究如何從一個語句中推導詞的意義,以及這些詞在該語句中句法結構中的作用來推導出該語句的意義。這句話說了什么?(1)今天中午我吃食堂。(2)這個人真牛。(3)這個人眼下沒些什么,那個人嘴不太好。第24頁,課件共153頁,創(chuàng)作于2023年2月研究的層次——語用學:研究在不同上下文中的語句的應用,以及上下文對語句理解所產(chǎn)生的影響。為什么要說這句話?(1)火,火!(2)A:看看魚怎么樣了?

B:我剛才翻了一下。第25頁,課件共153頁,創(chuàng)作于2023年2月自然語言理解的基本模型第26頁,課件共153頁,創(chuàng)作于2023年2月漢語的特點:漢語是大字符集(GBK字符集)的意音文字(圖形符號既代表語素,又代表音節(jié)的文字系統(tǒng));漢語詞與詞之間沒有空格,沒有形態(tài)變化;漢語的同音詞較多;字形復雜;漢語的語法研究尚未規(guī)范化;漢語的語言學知識的量化與形式化工作滯后。1.5漢語的自然語言理解英語只有26個字母,中文卻有44908個漢字(《中華大辭典》)。英語有1500年歷史《牛津英語辭典》收詞40多萬條。漢語長達六千多年歷史《中華大辭典》收詞六十多萬條,比英語多50%。這一特性為漢字的輸入和計算機編碼造成了極大的困難。西方語言的形態(tài)對于計算機來說就是標記;漢語以字為基本單位,詞之間沒有明顯的標記,需要詞的切分,而分詞本身有一定的錯誤率,降低了后續(xù)處理的實際效果。漢語詞本身沒有性、數(shù)、格、時態(tài)變化等形態(tài)標志,給語義分析增加了困難。方塊漢字由象形文字演化而來,漢字字形的信息量較大,給計算機的內(nèi)部信息壓縮和文字顯示制造了困難。漢語句子中詞序雖同可能意義迥異;虛詞并非非用不可,特別是在口語里,虛詞更少,因此虛詞只能是解決詞與詞、句與句關系問題的輔助手段;“意合”包含著許多語言環(huán)境、語言背景和語言風格知識以及缺省問題,如何全面把握有關意義的諸項要素,并把它形式化,是最大的難題。第27頁,課件共153頁,創(chuàng)作于2023年2月1、交集型切分歧義問題乒乓球/拍賣/完/了乒乓球拍/賣/完/了

美國/會通過對臺售武法案美/國會/通過對臺售武法案漢語自然語言理解的難點第28頁,課件共153頁,創(chuàng)作于2023年2月2、未登錄詞(新詞)問題漢語詞典中未列入的詞包括:專有名詞:中文人名、地名、機構名稱、外國譯名、時間詞重疊詞:高高興興派生詞:一次性用品專業(yè)術語:互聯(lián)網(wǎng)第29頁,課件共153頁,創(chuàng)作于2023年2月3、詞性岐義問題多詞性和多詞義是語言的一種普遍現(xiàn)象,漢語這種現(xiàn)象比西方語言嚴重得多。和

根據(jù)《現(xiàn)代漢語詞典》,可以有五種讀音:he2;he4;hu2;huo2;huo4

六種詞性:名詞、形容詞、連詞、動詞、介詞、量詞十六種不同的詞義第30頁,課件共153頁,創(chuàng)作于2023年2月4、否定詞和語義上的混亂漢語上的否定詞“不”有時并不表示否定。相反,反而會更肯定。如:“可不是”比“可是”更可是。第31頁,課件共153頁,創(chuàng)作于2023年2月5、漢語的岐義結構(短語歧義)岐義結構是句子自生固有的,必須在整個語境環(huán)境下才可能消歧,自動消歧是很難的。彩色鉛筆盒子[彩色][鉛筆盒子][彩色鉛筆][盒子]他在看病

他在給別人看病

大夫給他看病第32頁,課件共153頁,創(chuàng)作于2023年2月6、漢語的詞義岐義打乒乓球打電話打毛衣7、語用岐義你真討厭!第33頁,課件共153頁,創(chuàng)作于2023年2月1.6自然語言處理技術自然語言處理的過程第34頁,課件共153頁,創(chuàng)作于2023年2月如何描述一種語言?窮舉:給出語言中所有的句子;只適合含有有限多個句子的語言。文法:給出可以生成語言中所有句子的方法;當且僅當能夠用該方法產(chǎn)生的句子屬于該語言。自動機:給出識別該語言中句子的機械方法;可以檢驗輸入句子是否屬于該語言。第35頁,課件共153頁,創(chuàng)作于2023年2月按技術路線分為:基于語言學規(guī)則的語言處理技術基于統(tǒng)計的語言處理技術兩者結合

第36頁,課件共153頁,創(chuàng)作于2023年2月1、基于語言學規(guī)則的語言處理技術通過對語言學知識的形式化、形式化規(guī)則的算法化,以及算法實現(xiàn)等步驟將語言學知識轉化為計算機可以處理的形式。強調語言學家對語言現(xiàn)象的認識。采用非歧義的規(guī)則形式描述或解釋歧義行為或歧義特性。理性主義方法第37頁,課件共153頁,創(chuàng)作于2023年2月語言學家:撰寫“規(guī)則庫”(包括“詞典”)計算機學家:編寫算法程序,對“規(guī)則庫”進行解釋和執(zhí)行。第38頁,課件共153頁,創(chuàng)作于2023年2月2、基于統(tǒng)計的語言處理技術從大規(guī)模真實語料庫中獲得各級語言單位上的統(tǒng)計信息,并依據(jù)較低級語言單位上的統(tǒng)計信息,用相關的統(tǒng)計推理技術計算較高級語言單位上的統(tǒng)計信息。注重用數(shù)學方法—概率論與數(shù)理統(tǒng)計。能從代表自然語言規(guī)律的大規(guī)模真實文本中發(fā)現(xiàn)知識,抽取語言現(xiàn)象或統(tǒng)計規(guī)律(從大量的語言數(shù)據(jù)中獲得語言的知識結構)。經(jīng)驗主義方法第39頁,課件共153頁,創(chuàng)作于2023年2月語言學家:建立“語料庫”——經(jīng)科學取樣和加工的大規(guī)模電子文本庫。存放的是在語言的實際使用中真實出現(xiàn)過的語言材料;

以電子計算機為載體承載語言知識的基礎資源;真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。計算機學家:建立統(tǒng)計模型

利用語料庫訓練模型參數(shù)編寫算法解決問題第40頁,課件共153頁,創(chuàng)作于2023年2月二者區(qū)別——研究對象不同基于規(guī)則的方法主要研究人的語言知識結構,實際的語言數(shù)據(jù)只提供了這種內(nèi)在知識的間接證據(jù)?;诮y(tǒng)計的方法研究對象就是實際的語言數(shù)據(jù)。第41頁,課件共153頁,創(chuàng)作于2023年2月二者區(qū)別——理論基礎不同基于規(guī)則的方法是基于喬姆斯基的語言理論的。通過語言所必須遵守的一系列原則來描述語言,以此判斷一個句子是正確的還是錯誤的?;诮y(tǒng)計的方法基于香農(nóng)的信息論。將語言事件賦予概率,作為其可信度,由此來判斷一個句子是常見的還是罕見的。第42頁,課件共153頁,創(chuàng)作于2023年2月二者區(qū)別——范圍不同基于規(guī)則的方法通過對一些特定領域或范圍內(nèi)的語言現(xiàn)象的研究來得到對人的語言能力的認識,而這些語言現(xiàn)象在實際應用中可能并不常見?;诮y(tǒng)計的方法偏重于對語料庫中人們實際使用的普通語言現(xiàn)象的統(tǒng)計表述。第43頁,課件共153頁,創(chuàng)作于2023年2月二者區(qū)別——方法不同基于規(guī)則的方法:符號處理系統(tǒng)。基于統(tǒng)計的方法偏重于對語料庫中人們實際使用的普通語言現(xiàn)象的統(tǒng)計表述。第44頁,課件共153頁,創(chuàng)作于2023年2月1.7基于語言學規(guī)則的語言處理技術規(guī)則舉例新詞抽取的常規(guī)規(guī)則:1、If(pos(A)=‘N’AND(pos(B)=‘V’ORpos(B)=‘A’orpos(B)=‘N’ORpos(B)=‘Q’))ThenABisnew

該規(guī)則表示:如果由兩個詞構成的二元組中A為名詞,而B為動詞或形容詞或名詞或量詞,則將該二元組做標記,認為是新詞。2、If(pos(A)=‘V’ANDpos(B)=‘A’)ThenABisnew

例如:減肥,模仿秀第45頁,課件共153頁,創(chuàng)作于2023年2月分詞結果中含詞數(shù)最少等價于在有向圖中搜索最短路徑方法:最小匹配算法分段;逐段統(tǒng)計最短路徑(dijkstra算法:用于計算一個節(jié)點到其他所有節(jié)點的最短路徑);得到若干分詞結果:發(fā)展/中/國家發(fā)展/中國/家;統(tǒng)計排歧。最少分詞問題第46頁,課件共153頁,創(chuàng)作于2023年2月第47頁,課件共153頁,創(chuàng)作于2023年2月按處理對象的不同,可分為:1、字處理技術2、詞處理技術詞是自然語言中最小的有意義的構成單位,是最基本的研究對象。詞處理主要包括分詞、詞性標注、詞義消歧。3、語句處理技術4、篇章處理技術第48頁,課件共153頁,創(chuàng)作于2023年2月基于規(guī)則的句法分析理論和方法Chomsky的形式語言理論上下文無關文法轉移生成文法擴充轉移網(wǎng)絡第49頁,課件共153頁,創(chuàng)作于2023年2月1、chomsky的形式語言理論第50頁,課件共153頁,創(chuàng)作于2023年2月第51頁,課件共153頁,創(chuàng)作于2023年2月第52頁,課件共153頁,創(chuàng)作于2023年2月第53頁,課件共153頁,創(chuàng)作于2023年2月用G表示形式語法,G定義為四元組:G=(Vn,Vt,S,P)(1)Vt:終結符集合。是一個形式語言的基本符號。它們能在一個形式語法的推導規(guī)則的輸入或輸出字符串存在,而且它們不能被分解成更小的單位。一個語法的規(guī)則不能改變終結符。下面的語法有兩個規(guī)則:x→xax→ax在這種語法之中,a是一個終結符,因為沒有規(guī)則可以把a變成別的符號。不過,有兩個規(guī)則可以把x變成別的符號,所以x是非終結符。一個形式語法所推導的形式語言必須完全由終結符構成。短語結構語法第54頁,課件共153頁,創(chuàng)作于2023年2月(2)Vn:非終結符集合,是可以被取代的符號,不能處于生成過程的終點,即在實際句子中不出現(xiàn)。在上下文無關文法中,每個推導規(guī)則的左邊只能有一個非終結符而不能有兩個以上的非終結符或終結符。(3)S:起始符號。一個語法中必須有一個起始符號,這個起始符號屬于非終結符的集合。(4)P:重寫規(guī)則,也叫做產(chǎn)生式規(guī)則集合(產(chǎn)生式的形式是P→a)。第55頁,課件共153頁,創(chuàng)作于2023年2月采用短語結構語法對英語子集語法的描述G=(Vn,Vt,S,P)Vn={S,NP,VP,PP,N,V,Prep,Det};Vt={the,girl,letter,pencil,write,witha};S=s;P:S→NPVP..........該規(guī)則表示“句子”由“名詞短語動詞短語”組成NP→DetN...........該規(guī)則表示“名詞短語”由“冠詞名詞”組成VP→VPPP...........該規(guī)則表示“動詞短語”由“動詞短語介詞短語”組成第56頁,課件共153頁,創(chuàng)作于2023年2月VP→VNP............該規(guī)則表示“動詞短語”由“動詞名詞短語”組成PP→PrepNP..........該規(guī)則表示“介詞短語”由“介詞名詞短語”組成Det→the|a...........該規(guī)則表示“冠詞”由the或a組成N→girl|letter|pencil............該規(guī)則表示“名詞”由girl或letter或pencil組成V→write............該規(guī)則表示“動詞”由write組成Prep→with.........該規(guī)則表示“介詞”由with組成第57頁,課件共153頁,創(chuàng)作于2023年2月在對一個句子分析過程中,如果把分析句子各成分間關系的推導過程用樹形圖表示出來的話,那么這種圖稱作句法分析樹。對句子“thegirlwritestheletterwithapencil”進行分析的語法樹如下:句法分析樹語法樹中的葉子結點即為分析的句子。第58頁,課件共153頁,創(chuàng)作于2023年2月例:已知漢語句子的分詞和詞性標注結果如下:他/PRON教/V我/PRON學/V日語/N請畫出該句子的語法樹,并給出上下文無關規(guī)則。G=(Vt,Vn,S,P)Vn={S,PRON,V,OBJECT,N}Vt={他,教,我,學,日語}S=SP:S→PRONVOBJECTOBJECT→N|SPRON→他|我V→教|學N→日語PRON—主語OBJECT—賓語第59頁,課件共153頁,創(chuàng)作于2023年2月第60頁,課件共153頁,創(chuàng)作于2023年2月第61頁,課件共153頁,創(chuàng)作于2023年2月0型文法(type0grammar)第62頁,課件共153頁,創(chuàng)作于2023年2月上下文有關文法(CSG)如果所有產(chǎn)生式都有右邊部分長度大于等于左邊部分,那么G是上下文有關文法第63頁,課件共153頁,創(chuàng)作于2023年2月上下文無關文法(CFG)如果如果所有產(chǎn)生式的左邊部分都是單個非終極符號,那么G是上下文無關文法第64頁,課件共153頁,創(chuàng)作于2023年2月正則文法(RG)第65頁,課件共153頁,創(chuàng)作于2023年2月如果所有產(chǎn)生式的右邊部分都是以終極符號開始、含有至多一個非終極符號、如果有非終極符號則出現(xiàn)在最右邊,那么G是正則文法。第66頁,課件共153頁,創(chuàng)作于2023年2月第67頁,課件共153頁,創(chuàng)作于2023年2月請判斷以下文法的類型G1: S→CD

Ab→bA

C→aCA Ba→aB

C→bCB

Bb→bB

AD→aD

C→a

BD→bD

D→b

Aa→bDG1是上下文有關文法第68頁,課件共153頁,創(chuàng)作于2023年2月請判斷以下文法的類型G2:S→aB, A→bAA

S→bA, B→b

A→a, B→bS

A→aS, B→aBBG2是上下文無關文法第69頁,課件共153頁,創(chuàng)作于2023年2月請判斷以下文法的類型G3:S→0A A→1B

S→1B B→1B

S→0B→1

A→0A B→0

A→0SG3是正則文法第70頁,課件共153頁,創(chuàng)作于2023年2月自動機第71頁,課件共153頁,創(chuàng)作于2023年2月文法、語言和自動機第72頁,課件共153頁,創(chuàng)作于2023年2月2、上下文無關文法第73頁,課件共153頁,創(chuàng)作于2023年2月第74頁,課件共153頁,創(chuàng)作于2023年2月第75頁,課件共153頁,創(chuàng)作于2023年2月第76頁,課件共153頁,創(chuàng)作于2023年2月第77頁,課件共153頁,創(chuàng)作于2023年2月第78頁,課件共153頁,創(chuàng)作于2023年2月第79頁,課件共153頁,創(chuàng)作于2023年2月第80頁,課件共153頁,創(chuàng)作于2023年2月第81頁,課件共153頁,創(chuàng)作于2023年2月第82頁,課件共153頁,創(chuàng)作于2023年2月第83頁,課件共153頁,創(chuàng)作于2023年2月第84頁,課件共153頁,創(chuàng)作于2023年2月第85頁,課件共153頁,創(chuàng)作于2023年2月第86頁,課件共153頁,創(chuàng)作于2023年2月第87頁,課件共153頁,創(chuàng)作于2023年2月3、轉換生成文法第88頁,課件共153頁,創(chuàng)作于2023年2月第89頁,課件共153頁,創(chuàng)作于2023年2月第90頁,課件共153頁,創(chuàng)作于2023年2月第91頁,課件共153頁,創(chuàng)作于2023年2月第92頁,課件共153頁,創(chuàng)作于2023年2月4、擴充轉移網(wǎng)絡第93頁,課件共153頁,創(chuàng)作于2023年2月(1)有限狀態(tài)轉移網(wǎng)絡以冠詞“The”開頭的一類名詞短語NP的轉移網(wǎng)絡,它可以擁有零個或多個形容詞;最后以一個名詞結尾。組成:一組狀態(tài)(或稱結點)和一組弧組成。例子:輸入“theprettypicture”。從起始狀態(tài)NP開始,只有一條標注著“the”的外射弧。由于輸入串中的the能同它匹配,所以“the”從輸入串中刪除,過程進入圖中的狀態(tài)NP1。此時輸入串是“prettypicture”,由于第一個“pretty”的詞類是ADJ,同標注ADJ的弧匹配,于是“pretty”從輸入串中刪除,但沿著ADJ弧轉移的結果是再次回到這個NP1狀態(tài)。此時輸入串只剩下“picture”,由于它是一個名詞,因此發(fā)生了沿N弧前進到結束狀態(tài)的轉移。輸入串成為空串,分析成功。第94頁,課件共153頁,創(chuàng)作于2023年2月第95頁,課件共153頁,創(chuàng)作于2023年2月這個句子的識別還可以在網(wǎng)絡中走其它弧,如由狀態(tài)c輸入“swallow”也可以走弧c→d,但接下來輸入“flies”時就被拒絕識別了。由此可看出網(wǎng)絡識別的過程應找出各種可能的路徑,因此算法要采用并行算法或回溯算法。第96頁,課件共153頁,創(chuàng)作于2023年2月(1)并行算法。并行算法的關鍵是在任何一個狀態(tài)都要選擇所有可以到達下一個狀態(tài)的弧,同時進行試驗。(2)回溯算法。回溯算法則是在所有可以通過的弧中選出一條往下走,并保留其他可能性,以便必要時可以回過來選擇之。這種方式需要一個堆棧結構。第97頁,課件共153頁,創(chuàng)作于2023年2月第98頁,課件共153頁,創(chuàng)作于2023年2月(2)遞歸轉移網(wǎng)絡(RTN)是對有限轉移網(wǎng)絡的一種擴展,在RTN中每條弧的標注不僅可以是一個終結符(詞或詞類),而且可以是一個用來指明另一個網(wǎng)絡名字的非終結符。例如,下面是一部上下文無關語法:S→NPVNPPP*NP→TADJ*NPP*PP→PNPX*表示符號X可以出現(xiàn)零次或多次。第99頁,課件共153頁,創(chuàng)作于2023年2月第100頁,課件共153頁,創(chuàng)作于2023年2月(3)擴充轉移網(wǎng)絡(ATN)第101頁,課件共153頁,創(chuàng)作于2023年2月ATN語法屬于一種增強型的上下文無關語法,即用上下文無關文法描述句子文法結構,并同時提供有效的方式將各種理解語句所需要的知識加到分析系統(tǒng)中,以增強分析功能,從而使得應用ATN的句法分析程序具有分析上下文有關語言的能力。ATN主要是對轉移網(wǎng)絡中的弧附加了過程而得到的。當通過一個弧的時候,附加在該弧上的過程就會被執(zhí)行。這些過程的主要功能是(I)對文法特征進行賦值;(II)檢查數(shù)(number)或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許轉移。第102頁,課件共153頁,創(chuàng)作于2023年2月ATN在三方面對RTN作了擴展和增強:(1)添置了一組寄存器,用來存儲分析過程中得到的中間結果和有關信息。例如,“小王研究魯迅的文章”可能先被分析為NP+VP,但發(fā)現(xiàn)后面的詞是“發(fā)表”,則要回到前面的某個轉移點重新分析,選擇另一條路。第103頁,課件共153頁,創(chuàng)作于2023年2月(2)每條弧上除了用句法范疇來標注以外,可以附加任意測試,只有當弧上的這種測試成功之后才能用這條弧。第104頁,課件共153頁,創(chuàng)作于2023年2月(3)每條弧上還可以附加某些動作,當通過一條弧時,相應的動作便被依次執(zhí)行,這些動作主要用來設置或修改寄存器的內(nèi)容。第105頁,課件共153頁,創(chuàng)作于2023年2月

例:一個簡單的名詞短語(NP)的擴充轉移網(wǎng)絡,

網(wǎng)絡中弧上的條件和操作如下所示:第106頁,課件共153頁,創(chuàng)作于2023年2月該網(wǎng)絡主要是用來檢查NP中的數(shù)的一致值問題。特征是Number(數(shù)),有兩個值:singular(單數(shù))和plural(復數(shù)),缺省值是(空)。C是弧上的條件,A是弧上的操作,*是當前詞,proper是專用名詞,det是限定詞,PP是介詞短語,*.Number是當前詞的“數(shù)”。該擴充轉移網(wǎng)絡有一個網(wǎng)絡名NP。網(wǎng)絡NP可以是其他網(wǎng)絡的一個子網(wǎng)絡,也可以包含其他網(wǎng)絡,如其中的PP就是一個子網(wǎng)絡,這就是網(wǎng)絡的遞歸性。第107頁,課件共153頁,創(chuàng)作于2023年2月弧NP-1將當前詞的Number放入當前NP的Number中;而弧NP-4則要求當前noun的Number與NP的Number是相同時,或者NP的Number為空時,將noun作為NP的Number,這就要求det的數(shù)和noun的數(shù)是一致的。因此thisbook,thebook,thebooks,thesebooks都可順利通過這一網(wǎng)絡,但是thisbooks,或thesebook就無法通過。如果當前NP是一個代詞(pron.)或者專用名詞(proper),那么網(wǎng)絡就從NP-5或NP-6通過,這時NP的數(shù)就是代詞或專用名詞的數(shù)。PP是一個修飾前面名詞的介詞短語,一旦到達PP弧就馬上轉入子網(wǎng)絡PP.第108頁,課件共153頁,創(chuàng)作于2023年2月例:一個句子的ATN,主要用來識別主、被動態(tài)的句子。S網(wǎng)絡中所涉及的功能名和特征維包括:功能名:Subject(主語),Direct-Obj(直接賓語),Main-Verb(謂語動詞),Auxs.(助動詞),Modifiers(修飾語)。特征維:Voice(語態(tài)):Active(主動態(tài)),Passive(被動態(tài)),缺省值是Active。Type(動詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(動詞式):Inf不定式),Present(現(xiàn)在式),Past(過去式),Pres-part(現(xiàn)在分詞),Past-part(過去分詞),缺省值是Present。第109頁,課件共153頁,創(chuàng)作于2023年2月第110頁,課件共153頁,創(chuàng)作于2023年2月Subject←*即把當前成分放入名為Subject的功能寄存器(當前成分作主語)。是一種添加操作,Auxs.Main-Verb就是將當前的謂語動詞添加到Auxs功能寄存器中(原來Auxs中可能已有內(nèi)容)。在S網(wǎng)絡中,當弧S-2遇到第一個動詞時,就把它置入Main-Verb,但是在接下來的弧S-3中發(fā)現(xiàn)Main-Verb中剛才被置入的是助動詞,網(wǎng)絡操作就把Main-Verb中的內(nèi)容添加到Auxs寄存器的尾部。若Auxs為空,添加操作與賦值是相同的,但是當Auxs非空時(有幾個助動詞),這即是一個添加操作。另外,網(wǎng)絡中有一種dummy節(jié)點,這是一種空節(jié)點,用來表示一種形式上的或者預示的成分,如形式上的主語等?;-4和S-7就是對于被動態(tài)句子的分析和處理?;-4主要是識別被動態(tài)的謂語動詞,一旦確認是被動態(tài),則將當前的主語作為直接賓語,弧S-7用來處理被動態(tài)句子中by所引導的介詞短語,該介詞的賓語就是實際上的主語。第111頁,課件共153頁,創(chuàng)作于2023年2月第112頁,課件共153頁,創(chuàng)作于2023年2月1.8基于統(tǒng)計的語言處理技術統(tǒng)計語言模型:試圖捕獲自然語言的統(tǒng)計規(guī)律以改善各種自然語言應用系統(tǒng)的性能。廣泛應用于語音識別、手寫體文字識別、機器翻譯、鍵盤輸入、信息檢索領域。統(tǒng)計語言建模相當于對各種語言單位如字、詞、句子或整篇文章進行概率分布的估計。第113頁,課件共153頁,創(chuàng)作于2023年2月概率第114頁,課件共153頁,創(chuàng)作于2023年2月最大似然估計第115頁,課件共153頁,創(chuàng)作于2023年2月現(xiàn)代漢語字頻統(tǒng)計結果:

前20個最高頻漢字及其頻率第116頁,課件共153頁,創(chuàng)作于2023年2月條件概率第117頁,課件共153頁,創(chuàng)作于2023年2月例第118頁,課件共153頁,創(chuàng)作于2023年2月全概率公式第119頁,課件共153頁,創(chuàng)作于2023年2月貝葉斯定理第120頁,課件共153頁,創(chuàng)作于2023年2月先驗概率、后驗概率第121頁,課件共153頁,創(chuàng)作于2023年2月例第122頁,課件共153頁,創(chuàng)作于2023年2月解第123頁,課件共153頁,創(chuàng)作于2023年2月定義給定所有可能的句子s,統(tǒng)計語言模型是一個概率分布p(s)。假設一個句子S可以表示為一個序列S=w1w2…wn,語言模型就是要求句子S的概率P(S):

Wi是句中的第i個詞,hi={w1,w2,…,wn-1}稱為歷史。p(我是一個學生)=p(我,是,一,個,學生)=p(我)?p(是|我)?p(一|我,是)?p(個|我,是,一)?p(學生|我,是,一,個)第124頁,課件共153頁,創(chuàng)作于2023年2月上述概率的計算量太大,解決問題的方法是將所有歷史w1w2…wi-1按照某個規(guī)則映射到等價類S(w1w2…wi-1),等價類的數(shù)目遠遠小于不同歷史的數(shù)目,即假定:第125頁,課件共153頁,創(chuàng)作于2023年2月由于語言模型的訓練文本T的規(guī)模及其分布存在著一定的局面性和片面性,許多合理的語言搭配現(xiàn)象沒有出現(xiàn)在T中。例如:一個詞串Wi-N+1…Wi

沒有出現(xiàn)在訓練文本T中,該詞串對應的上下文條件概率p(Wi|Wi-N+1…Wi)=0,從而導致該詞串所在的語句S的出現(xiàn)概率p(S)=0。第126頁,課件共153頁,創(chuàng)作于2023年2月127當前主要語言模型N-gram模型決策樹模型指數(shù)模型(最大熵模型)整句模型文法模型概率上下文無關文法鏈文法概率依存文法自適應模型第127頁,課件共153頁,創(chuàng)作于2023年2月N-gram模型實際應用中,由于嚴重的數(shù)據(jù)稀疏和系統(tǒng)處理能力的限制,統(tǒng)計語言建模只能考慮有限長度的歷史。數(shù)據(jù)稀疏問題可能會錯誤地推導出小概率事件是不重要的。當兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N-Gram模型被稱為一階馬爾科夫鏈。N的值不能太大,否則計算仍然太大。根據(jù)最大似然估計,語言模型的參數(shù):其中,C(w1w2…wi)表示w1w2…wi在訓練數(shù)據(jù)中出現(xiàn)的次數(shù)。第128頁,課件共153頁,創(chuàng)作于2023年2月通過將語言模擬成N-1階馬爾科夫源,N-gram模型減少了參數(shù)估計的維數(shù):N的選擇要考慮參數(shù)估計的穩(wěn)定性和描述能力的折衷。二元語法(Bigram)和三元語法Trigram是通常的選擇。第129頁,課件共153頁,創(chuàng)作于2023年2月BigramTrigram第130頁,課件共153頁,創(chuàng)作于2023年2月N的選擇:可靠性vs.辨別力“我 正在 ________”

講課?圖書館?聽課?學習?借書?……“我 正在圖書館 ________”

學習?借書?……

第131頁,課件共153頁,創(chuàng)作于2023年2月可靠性vs.辨別力更大的n:對下一個詞出現(xiàn)的約束性信息更多,更大的辨別力;更小的n:在訓練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計結果,更高的可靠性。

第132頁,課件共153頁,創(chuàng)作于2023年2月構造方法采用語言學家構造的詞的語法分類體系,按詞性進行詞類劃分,借助于詞性標注技術,構造基于詞性的N-POS模型。采用詞的自動聚類技術,自動構造基于詞的自動聚類的類N-gram模型。第133頁,課件共153頁,創(chuàng)作于2023年2月基于詞類的N-gram模型類模型提出的意義:降低模型參數(shù)的規(guī)模;數(shù)據(jù)稀疏問題的一種解決方式。第134頁,課件共153頁,創(chuàng)作于2023年2月幾種模型比較基于詞的N-gram模型對近鄰語言約束關系的描述能力最強,應用程度最為廣泛。一般N小于等于3,難以描述長距離的語言約束關系。N-POS模型的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏問題,可以構造高元模型,用于描述長距離的語言約束關系。但由于詞性數(shù)目過少,過于泛化,因此限制了語言模型的描述能力。自動聚類生成的詞類數(shù)量介于詞和詞性的數(shù)量之間,由此建立的類N-gram模型,既不存在嚴重的數(shù)據(jù)稀疏問題,又不存在過于泛化的問題。第135頁,課件共153頁,創(chuàng)作于2023年2月統(tǒng)計語言模型的參數(shù)基于統(tǒng)計的方法基本上使用了隱馬爾科夫模型,這樣的模型使用了許多參數(shù)來參與消除歧義的決策機制,這些參數(shù)必須經(jīng)過適當?shù)恼Z料進行訓練來提取。統(tǒng)計模型需要有足夠的訓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論