第三章 自然語言的處理_第1頁
第三章 自然語言的處理_第2頁
第三章 自然語言的處理_第3頁
第三章 自然語言的處理_第4頁
第三章 自然語言的處理_第5頁
已閱讀5頁,還剩151頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1 第第3章章 自然語言的處理自然語言的處理23.1 基本概念基本概念3信息的主要載體語言信息的主要載體語言語言的兩種形式文字和聲音語言的兩種形式文字和聲音 文字和聲音作為語言的兩個不同形式的載體,所文字和聲音作為語言的兩個不同形式的載體,所承載的信息占整個信息組成的承載的信息占整個信息組成的90以上。以上。 如何讓計算機(jī)實(shí)現(xiàn)人們希望實(shí)現(xiàn)的語言處理功能?如何讓計算機(jī)實(shí)現(xiàn)人們希望實(shí)現(xiàn)的語言處理功能? 如何讓計算機(jī)真正實(shí)現(xiàn)海量的語言信息的自動處如何讓計算機(jī)真正實(shí)現(xiàn)海量的語言信息的自動處理和有效利用?理和有效利用?4 自然語言處理自然語言處理(Natural Language Processing,

2、簡,簡稱稱NLP)是利用計算機(jī)為工具,對人類特有的書)是利用計算機(jī)為工具,對人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)。型處理和加工的技術(shù)。 馮志偉馮志偉自然語言的計算機(jī)處理自然語言的計算機(jī)處理 NLP是用計算機(jī)通過可計算的方法對自然語言的是用計算機(jī)通過可計算的方法對自然語言的各級語言單位(字、詞、語句、篇章等)進(jìn)行轉(zhuǎn)各級語言單位(字、詞、語句、篇章等)進(jìn)行轉(zhuǎn)換、傳輸、存儲、分析等加工處理的理論和方法。換、傳輸、存儲、分析等加工處理的理論和方法。 5其它名稱其它名稱 自然語言理解自然語言理解(Natural Languag

3、e Understanding) 計算語言學(xué)計算語言學(xué)(Computational Linguistics) 現(xiàn)代語言學(xué)的一大分支,它是用計算機(jī)理現(xiàn)代語言學(xué)的一大分支,它是用計算機(jī)理解、生成和處理自然語言,即它的研究范解、生成和處理自然語言,即它的研究范圍不僅涵蓋語言信息的處理,還包括語言圍不僅涵蓋語言信息的處理,還包括語言的理解和生成。的理解和生成。6研究語言的目的研究語言的目的研究語言的目的研究語言的目的為語言構(gòu)造出足夠精細(xì)的計算模型,以便能夠?qū)懗鰹檎Z言構(gòu)造出足夠精細(xì)的計算模型,以便能夠?qū)懗鲇捎嬎銠C(jī)程序來完成的涉及自然語言的各種任務(wù)。由計算機(jī)程序來完成的涉及自然語言的各種任務(wù)。計算模型的用

4、途計算模型的用途作為科學(xué)研究的目的可以探索語言交流的本質(zhì);作為科學(xué)研究的目的可以探索語言交流的本質(zhì);作為實(shí)用的目的能夠?qū)崿F(xiàn)有效的人機(jī)通信。作為實(shí)用的目的能夠?qū)崿F(xiàn)有效的人機(jī)通信。終極目標(biāo)終極目標(biāo)能夠給出一些模型,這些模型在完成閱讀、寫作、能夠給出一些模型,這些模型在完成閱讀、寫作、聽、說等任務(wù)時能夠接近人的行為。聽、說等任務(wù)時能夠接近人的行為。7 不關(guān)注不關(guān)注與所使用的特定媒介相關(guān)的與所使用的特定媒介相關(guān)的問題,例如手寫輸入、鍵盤輸入或語音問題,例如手寫輸入、鍵盤輸入或語音輸入的問題。輸入的問題。 關(guān)注關(guān)注在詞語識別完成后理解和使用在詞語識別完成后理解和使用語言的過程。語言的過程。 NLP的歷史

5、的歷史u20世紀(jì)世紀(jì)50年代起步年代起步u提出機(jī)器翻譯等重要問題提出機(jī)器翻譯等重要問題u50年代年代-60年代采用模式匹配法和文法分析方法年代采用模式匹配法和文法分析方法u對基于理解和基于統(tǒng)計方法的討論對基于理解和基于統(tǒng)計方法的討論u60年代后期衰落年代后期衰落u70-80年代采用了面向受限域的深入理解方法年代采用了面向受限域的深入理解方法u80年代后期至今統(tǒng)計方法占據(jù)主流年代后期至今統(tǒng)計方法占據(jù)主流u大規(guī)模語料可用,計算機(jī)性能大幅提高大規(guī)模語料可用,計算機(jī)性能大幅提高u互聯(lián)網(wǎng)的迅速發(fā)展為互聯(lián)網(wǎng)的迅速發(fā)展為NLP提供了實(shí)驗數(shù)據(jù)來源和新的應(yīng)提供了實(shí)驗數(shù)據(jù)來源和新的應(yīng)用場景用場景893.2 自然語

6、言處理技術(shù)可以為我們自然語言處理技術(shù)可以為我們做什么?做什么?1、信息檢索、信息檢索http:/.hk 微軟:微軟:106,000,000條(條(8年前年前2,060,000 條)條)微軟,亞洲研究院:微軟,亞洲研究院:1,060,000條條微軟,亞洲研究院,研究方向:微軟,亞洲研究院,研究方向:116,000條條微軟,亞洲研究院,自然語言處理:微軟,亞洲研究院,自然語言處理:38,900 條條 08年年7月一萬億個網(wǎng)頁,每天數(shù)十億增加月一萬億個網(wǎng)頁,每天數(shù)十億增加 獲得的信息只有獲得的信息只有1被有效利用被有效利用“框框”計算計算“框計算框計算”是是20092009年年8 8月月1818日,

7、百度董事長兼首席日,百度董事長兼首席執(zhí)行官李彥宏在執(zhí)行官李彥宏在20092009百度百度技術(shù)創(chuàng)新大會上所提出的技術(shù)創(chuàng)新大會上所提出的全新技術(shù)概念。用戶只要全新技術(shù)概念。用戶只要在在“百度框百度框”中輸入服務(wù)中輸入服務(wù)需求,系統(tǒng)就能明確識別需求,系統(tǒng)就能明確識別這種需求,并將該需求分這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應(yīng)配給最優(yōu)的內(nèi)容資源或應(yīng)用提供商處理,最終精準(zhǔn)用提供商處理,最終精準(zhǔn)高效地返回給用戶相匹配高效地返回給用戶相匹配的結(jié)果。這種高度智能的的結(jié)果。這種高度智能的互聯(lián)網(wǎng)需求交互模式,以互聯(lián)網(wǎng)需求交互模式,以及及“最簡單可依賴最簡單可依賴”的信的信息交互實(shí)現(xiàn)機(jī)制與過程,息交互實(shí)現(xiàn)機(jī)制

8、與過程,稱之為稱之為“框計算框計算”。10112、借助于語言信息處理的、借助于語言信息處理的web智能智能1213微軟亞洲研究院微軟亞洲研究院人立方人立方輸入輸入“王菲王菲”得到的人物關(guān)系圖得到的人物關(guān)系圖15Ex-1: The spirit is willing, but the flesh is weak.(心有余,而力不足。)(心有余,而力不足。) 譯:精神是愿意的譯:精神是愿意的, 但骨肉是微弱的。但骨肉是微弱的。(Systran,現(xiàn)在已經(jīng)能夠,現(xiàn)在已經(jīng)能夠正確翻譯正確翻譯)Ex-2:3、機(jī)器翻譯、機(jī)器翻譯16在網(wǎng)絡(luò)上輸入在網(wǎng)絡(luò)上輸入“問句問句”,自動給出精確地答案。,自動給出精確地答

9、案。自動問答系統(tǒng)的結(jié)構(gòu)自動問答系統(tǒng)的結(jié)構(gòu)三個模塊:三個模塊: 提問處理模塊(提問處理模塊(Question-Processing);); 文獻(xiàn)處理模塊(文獻(xiàn)處理模塊(Document-Processing);); 答案的提取和構(gòu)造模塊(答案的提取和構(gòu)造模塊(Answer Extraction and Formulation)。)。 馮志偉馮志偉4、自動問答系統(tǒng)、自動問答系統(tǒng)17 如如“給我找出所有有關(guān)在給我找出所有有關(guān)在1986年到年到1990年之間曾經(jīng)年之間曾經(jīng)嘗試而最終失敗且金額超過嘗試而最終失敗且金額超過1億美元的融資收買的億美元的融資收買的文章。文章?!?處理方法:處理方法: 1 1、

10、對數(shù)據(jù)庫的每篇文章建立一種表示形式、對數(shù)據(jù)庫的每篇文章建立一種表示形式 2 2、這種表示形式能用于后續(xù)的推理、這種表示形式能用于后續(xù)的推理 5、復(fù)雜的檢索任務(wù)、復(fù)雜的檢索任務(wù)18輸入:美歐貿(mào)易摩擦升級輸入:美歐貿(mào)易摩擦升級識別結(jié)果:美歐貿(mào)易摩擦識別結(jié)果:美歐貿(mào)易摩擦生機(jī)生機(jī)輸入:新技術(shù)的發(fā)展日新月異輸入:新技術(shù)的發(fā)展日新月異識別結(jié)果:新識別結(jié)果:新紀(jì)錄紀(jì)錄的發(fā)展日新月異的發(fā)展日新月異6、語音識別、語音識別19信息過濾,信息安全信息過濾,信息安全文摘生成文摘生成問答系統(tǒng),人機(jī)交互問答系統(tǒng),人機(jī)交互語言教學(xué)語言教學(xué)文字輸入,文字編輯與排版文字輸入,文字編輯與排版語音翻譯語音翻譯網(wǎng)絡(luò)內(nèi)容管理與知識發(fā)

11、現(xiàn)網(wǎng)絡(luò)內(nèi)容管理與知識發(fā)現(xiàn) 201.3 關(guān)于關(guān)于“理解理解”的理解的理解 他說:他說:“她這個人真有意思她這個人真有意思(funny)”。她說:。她說:“他這個人怪有意思的他這個人怪有意思的(funny)”。于是人們以為他。于是人們以為他們有了意思們有了意思(wish),并讓他向她意思意思,并讓他向她意思意思(express)。他火了:他火了:“我根本沒有那個意思我根本沒有那個意思(thought)”!她也生!她也生氣了:氣了:“你們這么說是什么意思你們這么說是什么意思(intention)”?事后?事后有人說:有人說:“真有意思真有意思(funny)”。也有人說:。也有人說:“真沒真沒意思意思

12、(nonsense)”。 生活報生活報1994. 11. 13. 第六版第六版21人腦對語言的理解是一個復(fù)雜的思維過程。人腦對語言的理解是一個復(fù)雜的思維過程。自然語言理解技術(shù)同多個學(xué)科有著千絲萬縷的關(guān)系。自然語言理解技術(shù)同多個學(xué)科有著千絲萬縷的關(guān)系。語言學(xué):研究語言本身的結(jié)構(gòu)語言學(xué):研究語言本身的結(jié)構(gòu)語言心理學(xué):語言心理學(xué):研究人類生成和理解語言的過程研究人類生成和理解語言的過程邏輯學(xué):邏輯學(xué):計算機(jī)科學(xué)計算機(jī)科學(xué)人工智能人工智能數(shù)學(xué)與統(tǒng)計學(xué)數(shù)學(xué)與統(tǒng)計學(xué) 22一種測試一種測試機(jī)器機(jī)器是不是具備是不是具備人類智能人類智能的方法。的方法。圖靈測試圖靈測試231.4 自然語言理解研究的基本問題自然語

13、言理解研究的基本問題研究的層次研究的層次語法學(xué):研究語句的組成結(jié)構(gòu),包括詞和短語語法學(xué):研究語句的組成結(jié)構(gòu),包括詞和短語 在語句中的作用等。在語句中的作用等。為什么一句話可以這么說也可以那么說?為什么一句話可以這么說也可以那么說?24研究的層次研究的層次語義學(xué):研究如何從一個語句中推導(dǎo)詞的意義,語義學(xué):研究如何從一個語句中推導(dǎo)詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。該語句的意義。這句話說了什么?這句話說了什么?(1) 今天中午我吃食堂。今天中午我吃食堂。(2) 這個人真牛。這個人真牛。(3) 這個人眼下沒些什么,那個人嘴不

14、太好。這個人眼下沒些什么,那個人嘴不太好。25研究的層次研究的層次語用學(xué):研究在不同上下文中的語句的應(yīng)用,語用學(xué):研究在不同上下文中的語句的應(yīng)用,以及上下文對語句理解所產(chǎn)生的影響。以及上下文對語句理解所產(chǎn)生的影響。為什么要說這句話?為什么要說這句話?(1)火,火!)火,火?。?)A: 看看魚怎么樣了?看看魚怎么樣了? B: 我剛才翻了一下。我剛才翻了一下。自然語言理解的基本模型自然語言理解的基本模型漢語的特點(diǎn):漢語的特點(diǎn):p漢語是大字符集(漢語是大字符集(GBK字符集字符集)的意音文字(圖形)的意音文字(圖形符號既代表語素,又代表音節(jié)的文字系統(tǒng));符號既代表語素,又代表音節(jié)的文字系統(tǒng));p漢語

15、詞與詞之間沒有空格,沒有形態(tài)變化;漢語詞與詞之間沒有空格,沒有形態(tài)變化;p漢語的同音詞較多;漢語的同音詞較多;p字形復(fù)雜;字形復(fù)雜;p漢語的語法研究尚未規(guī)范化;漢語的語法研究尚未規(guī)范化;p漢語的語言學(xué)知識的量化與形式化工作滯后。漢語的語言學(xué)知識的量化與形式化工作滯后。271.5 漢語的自然語言理解漢語的自然語言理解英語只有英語只有26 個字母個字母,中文卻有中文卻有44 908 個漢字個漢字(中華大辭典中華大辭典) 。英語有。英語有1500 年歷史年歷史牛津英語辭典牛津英語辭典收詞收詞40 多萬條。漢語長達(dá)六千多年歷史多萬條。漢語長達(dá)六千多年歷史中華大辭典中華大辭典收詞六十多萬條收詞六十多萬條

16、,比英比英語多語多50 %。這一特性為漢字的輸入。這一特性為漢字的輸入和計算機(jī)編碼造成了極大的困難。和計算機(jī)編碼造成了極大的困難。西方語言的形態(tài)對于計算機(jī)來說就是西方語言的形態(tài)對于計算機(jī)來說就是標(biāo)記;漢語以字為基本單位,詞之間標(biāo)記;漢語以字為基本單位,詞之間沒有明顯的標(biāo)記,需要詞的切分,而沒有明顯的標(biāo)記,需要詞的切分,而分詞本身有一定的錯誤率,降低了后分詞本身有一定的錯誤率,降低了后續(xù)處理的實(shí)際效果。漢語詞本身沒有續(xù)處理的實(shí)際效果。漢語詞本身沒有性、數(shù)、格、時態(tài)變化等形態(tài)標(biāo)志,性、數(shù)、格、時態(tài)變化等形態(tài)標(biāo)志,給語義分析增加了困難。給語義分析增加了困難。方塊漢字由象形文字演化而方塊漢字由象形文字

17、演化而來,漢字字形的信息量較大,來,漢字字形的信息量較大,給計算機(jī)的內(nèi)部信息壓縮和給計算機(jī)的內(nèi)部信息壓縮和文字顯示制造了困難。文字顯示制造了困難。漢語句子中詞序雖同可能意義迥異;虛詞漢語句子中詞序雖同可能意義迥異;虛詞并非非用不可,特別是在口語里,虛詞更并非非用不可,特別是在口語里,虛詞更少,因此虛詞只能是解決詞與詞、句與句少,因此虛詞只能是解決詞與詞、句與句關(guān)系問題的輔助手段;關(guān)系問題的輔助手段;“意合意合” 包含著許包含著許多語言環(huán)境、語言背景和語言風(fēng)格知識以多語言環(huán)境、語言背景和語言風(fēng)格知識以及缺省問題,如何全面把握有關(guān)意義的諸及缺省問題,如何全面把握有關(guān)意義的諸項要素,并把它形式化,是

18、最大的難題。項要素,并把它形式化,是最大的難題。281、 交集型切分歧義問題交集型切分歧義問題 乒乓球乒乓球/拍拍賣賣/完完/了了 乒乓球乒乓球拍拍/賣賣/完完/了了 美美國國/會通過對臺售武法案會通過對臺售武法案 美美/國國會會/通過對臺售武法案通過對臺售武法案漢語自然語言理解的難點(diǎn)漢語自然語言理解的難點(diǎn)292、 未登錄詞(新詞)問題未登錄詞(新詞)問題漢語詞典中未列入的詞漢語詞典中未列入的詞包括:包括:專有名詞:中文人名、地名、機(jī)構(gòu)名稱、專有名詞:中文人名、地名、機(jī)構(gòu)名稱、 外國譯外國譯名、時間詞名、時間詞重疊詞:高高興興重疊詞:高高興興派生詞:一次性用品派生詞:一次性用品專業(yè)術(shù)語:互聯(lián)網(wǎng)

19、專業(yè)術(shù)語:互聯(lián)網(wǎng)303、詞性岐義問題、詞性岐義問題 多詞性和多詞義是語言的一種普遍現(xiàn)象,漢語這多詞性和多詞義是語言的一種普遍現(xiàn)象,漢語這種現(xiàn)象比西方語言嚴(yán)重得多。種現(xiàn)象比西方語言嚴(yán)重得多。和和 根據(jù)根據(jù)現(xiàn)代漢語詞典現(xiàn)代漢語詞典,可以有五種讀音:,可以有五種讀音:he2;he4;hu2;huo2;huo4 六種詞性:名詞、形容詞、連詞、動詞、介詞、六種詞性:名詞、形容詞、連詞、動詞、介詞、量詞量詞 十六種不同的詞義十六種不同的詞義314、否定詞和語義上的混亂、否定詞和語義上的混亂 漢語上的否定詞漢語上的否定詞“不不”有時并不表示否定。相反,有時并不表示否定。相反,反而會更肯定。反而會更肯定。如:

20、如:“可不是可不是”比比“可是可是”更可是。更可是。325、漢語的岐義結(jié)構(gòu)(短語歧義)、漢語的岐義結(jié)構(gòu)(短語歧義) 岐義結(jié)構(gòu)是句子自生固有的,必須在整個語境環(huán)岐義結(jié)構(gòu)是句子自生固有的,必須在整個語境環(huán)境下才可能消歧,自動消歧是很難的。境下才可能消歧,自動消歧是很難的。u彩色鉛筆盒子彩色鉛筆盒子 彩色彩色鉛筆盒子鉛筆盒子 彩色鉛筆彩色鉛筆盒子盒子 u他在看病他在看病 他在給別人看病他在給別人看病 大夫給他看病大夫給他看病6、漢語的詞義岐義、漢語的詞義岐義l打打乒乓球乒乓球l打打電話電話l打打毛衣毛衣7、語用岐義、語用岐義 你真討厭!你真討厭!341.6 自然語言處理技術(shù)自然語言處理技術(shù)如何描述一

21、種語言?如何描述一種語言?u窮舉:窮舉:u給出語言中所有的句子;給出語言中所有的句子;u只適合含有有限多個句子的語言。只適合含有有限多個句子的語言。u文法:文法:u給出可以生成語言中所有句子的方法;給出可以生成語言中所有句子的方法;u當(dāng)且僅當(dāng)能夠用該方法產(chǎn)生的句子屬于該語言。當(dāng)且僅當(dāng)能夠用該方法產(chǎn)生的句子屬于該語言。u自動機(jī):自動機(jī):u給出識別該語言中句子的機(jī)械方法;給出識別該語言中句子的機(jī)械方法;u可以檢驗輸入句子是否屬于該語言??梢詸z驗輸入句子是否屬于該語言。按技術(shù)路線分為:按技術(shù)路線分為: 1、基于語言學(xué)規(guī)則的語言處理技術(shù)、基于語言學(xué)規(guī)則的語言處理技術(shù)通過對語言學(xué)知識的形式化、形式化規(guī)則

22、的算法通過對語言學(xué)知識的形式化、形式化規(guī)則的算法化,以及算法實(shí)現(xiàn)等步驟將語言學(xué)知識轉(zhuǎn)化為計化,以及算法實(shí)現(xiàn)等步驟將語言學(xué)知識轉(zhuǎn)化為計算機(jī)可以處理的形式。算機(jī)可以處理的形式。強(qiáng)調(diào)語言學(xué)家對語言現(xiàn)象的認(rèn)識。強(qiáng)調(diào)語言學(xué)家對語言現(xiàn)象的認(rèn)識。采用非歧義的規(guī)則形式描述或解釋歧義行為或歧采用非歧義的規(guī)則形式描述或解釋歧義行為或歧義特性。義特性。37語言學(xué)家語言學(xué)家:撰寫:撰寫“規(guī)則庫規(guī)則庫”(包括(包括“詞典詞典”)計算機(jī)學(xué)家計算機(jī)學(xué)家:編寫算法程序,對:編寫算法程序,對“規(guī)則庫規(guī)則庫”進(jìn)行進(jìn)行解釋和執(zhí)行。解釋和執(zhí)行。382、基于統(tǒng)計的語言處理技術(shù)、基于統(tǒng)計的語言處理技術(shù)從大規(guī)模真實(shí)語料庫中獲得各級語言單位

23、上的統(tǒng)計從大規(guī)模真實(shí)語料庫中獲得各級語言單位上的統(tǒng)計信息,并依據(jù)較低級語言單位上的統(tǒng)計信息,用相信息,并依據(jù)較低級語言單位上的統(tǒng)計信息,用相關(guān)的統(tǒng)計推理技術(shù)計算較高級語言單位上的統(tǒng)計信關(guān)的統(tǒng)計推理技術(shù)計算較高級語言單位上的統(tǒng)計信息。息。注重用數(shù)學(xué)方法注重用數(shù)學(xué)方法概率論與數(shù)理統(tǒng)計。概率論與數(shù)理統(tǒng)計。能從代表自然語言規(guī)律的大規(guī)模真實(shí)文本中發(fā)現(xiàn)知能從代表自然語言規(guī)律的大規(guī)模真實(shí)文本中發(fā)現(xiàn)知識,抽取語言現(xiàn)象或統(tǒng)計規(guī)律(從大量的語言數(shù)據(jù)識,抽取語言現(xiàn)象或統(tǒng)計規(guī)律(從大量的語言數(shù)據(jù)中獲得語言的知識結(jié)構(gòu))。中獲得語言的知識結(jié)構(gòu))。39語言學(xué)家語言學(xué)家:建立:建立“語料庫語料庫”經(jīng)科學(xué)取樣和加工的經(jīng)科學(xué)取樣

24、和加工的大規(guī)模電子文本庫。大規(guī)模電子文本庫。存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料;存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料; 以電子計算機(jī)為載體承載語言知識的基礎(chǔ)資源;以電子計算機(jī)為載體承載語言知識的基礎(chǔ)資源;真實(shí)語料需要經(jīng)過加工(分析和處理),才能成為有用的真實(shí)語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。資源。計算機(jī)學(xué)家計算機(jī)學(xué)家:建立統(tǒng)計模型:建立統(tǒng)計模型 利用語料庫訓(xùn)練模型參數(shù)利用語料庫訓(xùn)練模型參數(shù) 編寫算法解決問題編寫算法解決問題40二者區(qū)別二者區(qū)別研究對象不同研究對象不同u基于規(guī)則的方法主要研究人的語言知識結(jié)構(gòu),實(shí)際基于規(guī)則的方法主要研究人的語言知識結(jié)構(gòu),實(shí)際

25、的語言數(shù)據(jù)只提供了這種內(nèi)在知識的間接證據(jù)。的語言數(shù)據(jù)只提供了這種內(nèi)在知識的間接證據(jù)。u基于統(tǒng)計的方法研究對象就是實(shí)際的語言數(shù)據(jù)?;诮y(tǒng)計的方法研究對象就是實(shí)際的語言數(shù)據(jù)。41二者區(qū)別二者區(qū)別理論基礎(chǔ)不同理論基礎(chǔ)不同u基于規(guī)則的方法是基于喬姆斯基的語言理論基于規(guī)則的方法是基于喬姆斯基的語言理論的。通過語言所必須遵守的一系列原則來描的。通過語言所必須遵守的一系列原則來描述語言,以此判斷一個句子是正確的還是錯述語言,以此判斷一個句子是正確的還是錯誤的。誤的。u基于統(tǒng)計的方法基于香農(nóng)的信息論。將語言基于統(tǒng)計的方法基于香農(nóng)的信息論。將語言事件賦予概率,作為其可信度,由此來判斷事件賦予概率,作為其可信度,

26、由此來判斷一個句子是常見的還是罕見的。一個句子是常見的還是罕見的。42二者區(qū)別二者區(qū)別范圍不同范圍不同u基于規(guī)則的方法通過對一些特定領(lǐng)域或范圍基于規(guī)則的方法通過對一些特定領(lǐng)域或范圍內(nèi)的語言現(xiàn)象的研究來得到對人的語言能力內(nèi)的語言現(xiàn)象的研究來得到對人的語言能力的認(rèn)識,而這些語言現(xiàn)象在實(shí)際應(yīng)用中可能的認(rèn)識,而這些語言現(xiàn)象在實(shí)際應(yīng)用中可能并不常見。并不常見。u基于統(tǒng)計的方法偏重于對語料庫中人們實(shí)際基于統(tǒng)計的方法偏重于對語料庫中人們實(shí)際使用的普通語言現(xiàn)象的統(tǒng)計表述。使用的普通語言現(xiàn)象的統(tǒng)計表述。43二者區(qū)別二者區(qū)別方法不同方法不同u基于規(guī)則的方法:符號處理系統(tǒng)?;谝?guī)則的方法:符號處理系統(tǒng)。u基于統(tǒng)計的

27、方法偏重于對語料庫中人們實(shí)基于統(tǒng)計的方法偏重于對語料庫中人們實(shí)際使用的普通語言現(xiàn)象的統(tǒng)計表述。際使用的普通語言現(xiàn)象的統(tǒng)計表述。441.7 基于語言學(xué)規(guī)則的語言處理技術(shù)基于語言學(xué)規(guī)則的語言處理技術(shù)規(guī)則舉例規(guī)則舉例新詞抽取的常規(guī)規(guī)則新詞抽取的常規(guī)規(guī)則 :1、If (pos(A)=N AND (pos(B)=V OR pos(B)=A or pos(B)=N OR pos(B)=Q) Then AB is new 該規(guī)則表示該規(guī)則表示:如果由兩個詞構(gòu)成的二元組中如果由兩個詞構(gòu)成的二元組中A為名詞,為名詞,而而B為動詞或形容詞或名詞或量詞,則將該二元組做為動詞或形容詞或名詞或量詞,則將該二元組做標(biāo)記,

28、認(rèn)為是新詞。標(biāo)記,認(rèn)為是新詞。 2、If (pos(A)=V AND pos(B)=A ) Then AB is new 例如:減肥,模仿秀例如:減肥,模仿秀46分詞結(jié)果中含詞數(shù)最少分詞結(jié)果中含詞數(shù)最少等價于在有向圖中搜索最短路徑等價于在有向圖中搜索最短路徑方法:最小匹配算法方法:最小匹配算法n分段;分段;n逐段統(tǒng)計最短路徑(逐段統(tǒng)計最短路徑( dijkstra算法:用于計算一個算法:用于計算一個節(jié)點(diǎn)到其他所有節(jié)點(diǎn)的最短路徑);節(jié)點(diǎn)到其他所有節(jié)點(diǎn)的最短路徑);n得到若干分詞結(jié)果:得到若干分詞結(jié)果:n發(fā)展發(fā)展/中中/國家國家n發(fā)展發(fā)展/中國中國/家;家;n統(tǒng)計排歧。統(tǒng)計排歧。最少分詞問題最少分詞

29、問題4748按處理對象的不同,可分為:按處理對象的不同,可分為:1、字字處理技術(shù)處理技術(shù)2、詞詞處理技術(shù)處理技術(shù) 詞是自然語言中最小的有意義的構(gòu)成單位,詞是自然語言中最小的有意義的構(gòu)成單位,是最基本的研究對象。詞處理主要包括分詞、詞是最基本的研究對象。詞處理主要包括分詞、詞性標(biāo)注、詞義消歧。性標(biāo)注、詞義消歧。3、語句語句處理技術(shù)處理技術(shù)4、篇章篇章處理技術(shù)處理技術(shù)基于規(guī)則的句法分析理論和方法基于規(guī)則的句法分析理論和方法uChomsky的形式語言理論的形式語言理論u上下文無關(guān)文法上下文無關(guān)文法u轉(zhuǎn)移生成文法轉(zhuǎn)移生成文法u擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)491、 chomsky的形式語言理論的形式語言理論

30、用用G表示形式語法,表示形式語法,G定義為四元組:定義為四元組:G=(Vn,Vt, S,P)(1)Vt:終結(jié)符集合。:終結(jié)符集合。是一個形式語言的基本符號。它們能在是一個形式語言的基本符號。它們能在一個形式語法的推導(dǎo)規(guī)則的輸入或輸出字符串存在,而且它一個形式語法的推導(dǎo)規(guī)則的輸入或輸出字符串存在,而且它們不能被分解成更小的單位。一個語法的規(guī)則不能改變終結(jié)們不能被分解成更小的單位。一個語法的規(guī)則不能改變終結(jié)符符 。 下面的語法有兩個規(guī)則:下面的語法有兩個規(guī)則: x xa x ax 在這種語法之中,在這種語法之中,a是一個終結(jié)符,因為沒有規(guī)則可以把是一個終結(jié)符,因為沒有規(guī)則可以把a(bǔ)變變成別的符號。不

31、過,有兩個規(guī)則可以把成別的符號。不過,有兩個規(guī)則可以把x變成別的符號,所變成別的符號,所以以x是非終結(jié)符。一個形式語法所推導(dǎo)的形式語言必須完全是非終結(jié)符。一個形式語法所推導(dǎo)的形式語言必須完全由終結(jié)符構(gòu)成。由終結(jié)符構(gòu)成。54短語結(jié)構(gòu)語法短語結(jié)構(gòu)語法(2)Vn:非終結(jié)符集合:非終結(jié)符集合,是可以被取代的符號,不能處于生,是可以被取代的符號,不能處于生成過程的終點(diǎn),即在實(shí)際句子中不出現(xiàn)。在上下文無關(guān)文法成過程的終點(diǎn),即在實(shí)際句子中不出現(xiàn)。在上下文無關(guān)文法中,每個推導(dǎo)規(guī)則的左邊只能有一個非終結(jié)符而不能有兩個中,每個推導(dǎo)規(guī)則的左邊只能有一個非終結(jié)符而不能有兩個以上的非終結(jié)符或終結(jié)符。以上的非終結(jié)符或終結(jié)

32、符。(3)S:起始符號。:起始符號。一個語法中必須有一個起始符號,這個起一個語法中必須有一個起始符號,這個起始符號屬于非終結(jié)符的集合。始符號屬于非終結(jié)符的集合。(4)P:重寫規(guī)則,也叫做產(chǎn)生式規(guī)則集合:重寫規(guī)則,也叫做產(chǎn)生式規(guī)則集合(產(chǎn)生式的形式是產(chǎn)生式的形式是P P a a)。)。55采用短語結(jié)構(gòu)語法對英語子集語法的描述采用短語結(jié)構(gòu)語法對英語子集語法的描述G=(Vn,Vt, S,P)Vn=S,NP,VP,PP,N,V,Prep,Det;Vt=the, girl, letter, pencil, write, with a;S=s;P:uSNP VP. 該規(guī)則表示該規(guī)則表示“句子句子”由由“名

33、詞短語名詞短語 動詞短動詞短語語”組成組成uNPDet N. 該規(guī)則表示該規(guī)則表示“名詞短語名詞短語”由由“冠詞冠詞 名詞名詞”組成組成uVPVP PP. 該規(guī)則表示該規(guī)則表示“動詞短語動詞短語”由由“動詞短語動詞短語 介詞短語介詞短語”組成組成56uVPV NP. 該規(guī)則表示該規(guī)則表示“動詞短語動詞短語”由由“動動詞詞 名詞短語名詞短語”組成組成uPPPrep NP. 該規(guī)則表示該規(guī)則表示“介詞短語介詞短語”由由“介介詞詞 名詞短語名詞短語”組成組成uDetthe|a. 該規(guī)則表示該規(guī)則表示“冠詞冠詞”由由the 或或 a 組組成成uNgirl|letter|pencil. 該規(guī)則表示該規(guī)則

34、表示“名詞名詞”由由girl 或或 letter 或或 pencil組成組成uVwrite. 該規(guī)則表示該規(guī)則表示“動詞動詞”由由write組成組成uPrepwith. 該規(guī)則表示該規(guī)則表示“介詞介詞”由由with組成組成57n在對一個句子分析過程中,如果把分析句子各成分在對一個句子分析過程中,如果把分析句子各成分間關(guān)系的推導(dǎo)過程用樹形圖表示出來的話,那么這間關(guān)系的推導(dǎo)過程用樹形圖表示出來的話,那么這種圖稱作句法分析樹。種圖稱作句法分析樹。n對句子對句子“the girl writes the letter with a pencil”進(jìn)行進(jìn)行分析的語法樹如下:分析的語法樹如下:58句法分析樹

35、句法分析樹例:已知漢語句子的分詞和詞性標(biāo)注結(jié)果如下:例:已知漢語句子的分詞和詞性標(biāo)注結(jié)果如下:他他/PRON 教教/V 我我/PRON 學(xué)學(xué)/V 日語日語/N請畫出該句子的語法樹,并給出上下文無關(guān)規(guī)則。請畫出該句子的語法樹,并給出上下文無關(guān)規(guī)則。G=(Vt,Vn,S,P)Vn=S,PRON,V,OBJECT,NVt=他他,教教,我我,學(xué)學(xué),日語日語S=SP:SPRON V OBJECT OBJECTN|S PRON他他|我我 V教教|學(xué)學(xué) N日語日語59PRON主語主語OBJECT賓語賓語0型文法(型文法(type 0 grammar)上下文有關(guān)文法(上下文有關(guān)文法(CSG)如果所有產(chǎn)生式都有

36、右邊部分長度如果所有產(chǎn)生式都有右邊部分長度大于等于左邊部分,那么大于等于左邊部分,那么G是上下是上下文有關(guān)文法文有關(guān)文法上下文無關(guān)文法(上下文無關(guān)文法(CFG)如果如果所有產(chǎn)生式的左邊如果如果所有產(chǎn)生式的左邊部分都是單個非終極符號,部分都是單個非終極符號,那么那么G是上下文無關(guān)文法是上下文無關(guān)文法正則文法(正則文法(RG)如果所有產(chǎn)生式的右邊部分如果所有產(chǎn)生式的右邊部分都是以終極符號開始、含有都是以終極符號開始、含有至多一個非終極符號、如果至多一個非終極符號、如果有非終極符號則出現(xiàn)在最右有非終極符號則出現(xiàn)在最右邊,那么邊,那么G是正則文法。是正則文法。請判斷以下文法的類型請判斷以下文法的類型G

37、1:G1: SCDSCDAbbAAbbACaCACaCABaaBBaaBCbCBCbCB BbbBBbbBADaDADaD CaCaBDbDBDbD DbDbAabDAabDG1G1是上下文有關(guān)文法是上下文有關(guān)文法請判斷以下文法的類型請判斷以下文法的類型G2:SaB,G2:SaB,AbAAAbAASbASbA, , BbBbAaAa, , BbSBbSAaSAaS, ,BaBBBaBBG2G2是上下文無關(guān)文法是上下文無關(guān)文法請判斷以下文法的類型請判斷以下文法的類型G3:S0A G3:S0A A1BA1B S1B S1B B1B B1B S0 B1 S0 B1 A0A A0A B0 B0 A0S

38、 A0SG3G3是正則文法是正則文法自動機(jī)自動機(jī)文法、語言和自動機(jī)文法、語言和自動機(jī)2、上下文無關(guān)文法、上下文無關(guān)文法3、轉(zhuǎn)換生成文法、轉(zhuǎn)換生成文法4、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò) (1)有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò))有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)u以冠詞以冠詞“The”開頭的一類名詞短語開頭的一類名詞短語NP的轉(zhuǎn)移網(wǎng)絡(luò),它可以擁的轉(zhuǎn)移網(wǎng)絡(luò),它可以擁有零個或多個形容詞;最后以一個名詞結(jié)尾。有零個或多個形容詞;最后以一個名詞結(jié)尾。u組成:一組狀態(tài)(或稱結(jié)點(diǎn))和一組弧組成。組成:一組狀態(tài)(或稱結(jié)點(diǎn))和一組弧組成。u例子:輸入例子:輸入“the pretty picture”。從起始狀態(tài)從起始狀態(tài)NP開始,只有一條標(biāo)注著開始,

39、只有一條標(biāo)注著“the”的外射弧。由于輸入串中的的外射弧。由于輸入串中的the能同它匹配,所以能同它匹配,所以“the”從輸入串中刪除,過程進(jìn)入圖中的狀態(tài)從輸入串中刪除,過程進(jìn)入圖中的狀態(tài)NP1。此時輸入串是此時輸入串是“pretty picture”,由于第一個,由于第一個“pretty”的詞類是的詞類是ADJ,同,同標(biāo)注標(biāo)注ADJ的弧匹配,于是的弧匹配,于是“pretty”從輸入串中刪除,但沿著從輸入串中刪除,但沿著ADJ弧轉(zhuǎn)移弧轉(zhuǎn)移的結(jié)果是再次回到這個的結(jié)果是再次回到這個NP1狀態(tài)。狀態(tài)。此時輸入串只剩下此時輸入串只剩下“picture”,由于它是一個名詞,因此發(fā)生了沿,由于它是一個名詞

40、,因此發(fā)生了沿N弧前弧前進(jìn)到結(jié)束狀態(tài)的轉(zhuǎn)移。輸入串成為空串,分析成功。進(jìn)到結(jié)束狀態(tài)的轉(zhuǎn)移。輸入串成為空串,分析成功。 這個句子的識別還可以在網(wǎng)絡(luò)中走其它弧,如由這個句子的識別還可以在網(wǎng)絡(luò)中走其它弧,如由狀態(tài)狀態(tài)c輸入輸入“swallow”也可以走弧也可以走弧cd,但接下,但接下來輸入來輸入“flies”時就被拒絕識別了。由此可看出時就被拒絕識別了。由此可看出網(wǎng)絡(luò)識別的過程應(yīng)找出各種可能的路徑,因此網(wǎng)絡(luò)識別的過程應(yīng)找出各種可能的路徑,因此算法要采用算法要采用并行算法或回溯算法并行算法或回溯算法。96(1)(1)并行算法。并行算法的關(guān)鍵是在任何一個狀態(tài)并行算法。并行算法的關(guān)鍵是在任何一個狀態(tài)都要選

41、擇所有可以到達(dá)下一個狀態(tài)的弧都要選擇所有可以到達(dá)下一個狀態(tài)的弧, ,同時進(jìn)同時進(jìn)行試驗。行試驗。(2)(2)回溯算法。回溯算法則是在所有可以通過的弧回溯算法?;厮菟惴▌t是在所有可以通過的弧中選出一條往下走中選出一條往下走, ,并保留其他可能性并保留其他可能性, ,以便必要以便必要時可以回過來選擇之。這種方式需要一個堆棧結(jié)時可以回過來選擇之。這種方式需要一個堆棧結(jié)構(gòu)。構(gòu)。(2)遞歸轉(zhuǎn)移網(wǎng)絡(luò)()遞歸轉(zhuǎn)移網(wǎng)絡(luò)(RTN)l是對是對有限轉(zhuǎn)移網(wǎng)絡(luò)的一種擴(kuò)展有限轉(zhuǎn)移網(wǎng)絡(luò)的一種擴(kuò)展,在,在RTN中每條弧的中每條弧的標(biāo)注不僅可以是一個終結(jié)符(詞或詞類),而且可標(biāo)注不僅可以是一個終結(jié)符(詞或詞類),而且可以是一個

42、用來指明另一個網(wǎng)絡(luò)名字的非終結(jié)符。以是一個用來指明另一個網(wǎng)絡(luò)名字的非終結(jié)符。l例如,下面是一部上下文無關(guān)語法:例如,下面是一部上下文無關(guān)語法:S NP V NP PP*NP T ADJ* N PP*PP P NP X*表示符號表示符號X可以出現(xiàn)可以出現(xiàn) 零次或多次。零次或多次。(3)擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)()擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(ATN) ATN ATN語法屬于一種增強(qiáng)型的上下文無關(guān)語法,即語法屬于一種增強(qiáng)型的上下文無關(guān)語法,即用上下文無關(guān)文法描述句子文法結(jié)構(gòu),并同時提供用上下文無關(guān)文法描述句子文法結(jié)構(gòu),并同時提供有效的方式將各種理解語句所需要的知識加到分析有效的方式將各種理解語句所需要的知識加到分析系統(tǒng)中,以

43、增強(qiáng)分析功能,從而使得應(yīng)用系統(tǒng)中,以增強(qiáng)分析功能,從而使得應(yīng)用ATNATN的句法的句法分析程序具有分析上下文有關(guān)語言的能力。分析程序具有分析上下文有關(guān)語言的能力。 ATN ATN主要是對轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過程而得到主要是對轉(zhuǎn)移網(wǎng)絡(luò)中的弧附加了過程而得到的。當(dāng)通過一個弧的時候,附加在該弧上的過程就的。當(dāng)通過一個弧的時候,附加在該弧上的過程就會被執(zhí)行。這些過程的主要功能是(會被執(zhí)行。這些過程的主要功能是(I I)對文法特征對文法特征進(jìn)行賦值;進(jìn)行賦值;( (II)II)檢查數(shù)(檢查數(shù)(numbernumber)或人稱(第一、或人稱(第一、二或三人稱)條件是否滿足,并據(jù)此允許或不允許二或三人稱)條

44、件是否滿足,并據(jù)此允許或不允許轉(zhuǎn)移。轉(zhuǎn)移。 ATN在三方面對在三方面對RTN作了作了擴(kuò)展擴(kuò)展和和增強(qiáng)增強(qiáng):(1)添置了一組)添置了一組寄存器寄存器,用來存儲分析過程中得,用來存儲分析過程中得到的中間結(jié)果和有關(guān)信息。到的中間結(jié)果和有關(guān)信息。 例如,例如,“小王研究魯迅的文章小王研究魯迅的文章”可能先被分析可能先被分析為為NPVP,但發(fā)現(xiàn)后面的詞是,但發(fā)現(xiàn)后面的詞是“發(fā)表發(fā)表”,則要,則要回到前面的某個轉(zhuǎn)移點(diǎn)重新分析,選擇另一條回到前面的某個轉(zhuǎn)移點(diǎn)重新分析,選擇另一條路。路。(2)每條弧上除了用句法范疇來標(biāo)注以外,可以)每條弧上除了用句法范疇來標(biāo)注以外,可以附加任意附加任意測試測試,只有當(dāng)弧上的這

45、種測試成功之后,只有當(dāng)弧上的這種測試成功之后才能用這條弧。才能用這條弧。(3)每條弧上還可以附加某些)每條弧上還可以附加某些動作動作,當(dāng)通過一條,當(dāng)通過一條弧時,相應(yīng)的動作便被依次執(zhí)行,這些動作主要弧時,相應(yīng)的動作便被依次執(zhí)行,這些動作主要用來用來設(shè)置或修改寄存器的內(nèi)容設(shè)置或修改寄存器的內(nèi)容。 例:一個簡單的名詞短語例:一個簡單的名詞短語(NP)的擴(kuò)充轉(zhuǎn)移網(wǎng)的擴(kuò)充轉(zhuǎn)移網(wǎng) 絡(luò),絡(luò), 網(wǎng)絡(luò)中弧上的條件和操作如下所示:網(wǎng)絡(luò)中弧上的條件和操作如下所示:u該網(wǎng)絡(luò)主要是用來檢查該網(wǎng)絡(luò)主要是用來檢查NPNP中的中的數(shù)的一致值問題數(shù)的一致值問題。u特征特征是是Number(Number(數(shù)數(shù)),),有兩個值:

46、有兩個值:singular(singular(單數(shù)單數(shù)) )和和plural(plural(復(fù)數(shù)復(fù)數(shù)),),缺省值是缺省值是( (空空) )。uC C是弧上的條件是弧上的條件,A,A是弧上的操作是弧上的操作, ,* *是當(dāng)前詞是當(dāng)前詞,proper,proper是專用名詞是專用名詞, ,detdet是限定詞是限定詞,PP,PP是介詞短語是介詞短語, ,* *.Number.Number是當(dāng)前詞的是當(dāng)前詞的“數(shù)數(shù)”。u該擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)有一個網(wǎng)絡(luò)名該擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)有一個網(wǎng)絡(luò)名NPNP。網(wǎng)絡(luò)。網(wǎng)絡(luò)NPNP可以是其可以是其他網(wǎng)絡(luò)的一個子網(wǎng)絡(luò)他網(wǎng)絡(luò)的一個子網(wǎng)絡(luò), ,也可以包含其他網(wǎng)絡(luò)也可以包含其他網(wǎng)絡(luò), ,

47、如其中如其中的的PPPP就是一個子網(wǎng)絡(luò)就是一個子網(wǎng)絡(luò), ,這就是網(wǎng)絡(luò)的遞歸性。這就是網(wǎng)絡(luò)的遞歸性。 u弧弧NP-1將當(dāng)前詞的將當(dāng)前詞的Number放入當(dāng)前放入當(dāng)前NP的的Number中;中;u而弧而弧NP-4則要求當(dāng)前則要求當(dāng)前noun的的Number與與NP的的Number是是相同時,或者相同時,或者NP的的Number為空時為空時,將將noun作為作為NP的的Number,這就要求,這就要求det的數(shù)和的數(shù)和noun的數(shù)是一致的。因的數(shù)是一致的。因此此this book,the book,the books,these books都可順利通都可順利通過這一網(wǎng)絡(luò)過這一網(wǎng)絡(luò),但是但是this

48、books,或或these book就無法通過。就無法通過。u如果當(dāng)前如果當(dāng)前NP是一個代詞是一個代詞(pron.)或者專用名詞或者專用名詞(proper),那么網(wǎng)絡(luò)就從那么網(wǎng)絡(luò)就從NP-5或或NP-6通過通過,這時這時NP的數(shù)就是代詞的數(shù)就是代詞或?qū)S妹~的數(shù)?;?qū)S妹~的數(shù)。PP是一個修飾前面名詞的介詞短語是一個修飾前面名詞的介詞短語,一旦到達(dá)一旦到達(dá)PP弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)弧就馬上轉(zhuǎn)入子網(wǎng)絡(luò)PP.例:一個句子的例:一個句子的ATN,主要用來識別主、被動態(tài)的句子。主要用來識別主、被動態(tài)的句子。nS網(wǎng)絡(luò)中所涉及的功能名和特征維包括:網(wǎng)絡(luò)中所涉及的功能名和特征維包括:n功能名:功能名:Subje

49、ct(主語主語),Direct-Obj(直接賓語直接賓語), Main-Verb(謂語動謂語動詞詞), Auxs.(助動詞助動詞), Modifiers(修飾語修飾語)。n特征維:特征維:nVoice(語態(tài)語態(tài)):Active(主動態(tài)主動態(tài)),Passive(被動態(tài)被動態(tài)),缺省值是缺省值是Active。nType(動詞類型動詞類型):Be,Do,Have,Modal,Non-Aux,缺省值是缺省值是Non-AuxanForm(動詞式動詞式):Inf不定式不定式),Present(現(xiàn)在式現(xiàn)在式),Past(過去式過去式),Pres-part(現(xiàn)在分詞現(xiàn)在分詞),Past-part(過去分詞過去

50、分詞),缺省值是缺省值是Present。lSubject即把當(dāng)前成分放入名為即把當(dāng)前成分放入名為Subject的功能寄存器的功能寄存器(當(dāng)前當(dāng)前成分作主語成分作主語)。l是一種添加操作是一種添加操作, Auxs. Main-Verb就是將當(dāng)前的謂語動詞就是將當(dāng)前的謂語動詞添加到添加到Auxs功能寄存器中功能寄存器中(原來原來Auxs中可能已有內(nèi)容中可能已有內(nèi)容)。l在在S網(wǎng)絡(luò)中網(wǎng)絡(luò)中,當(dāng)弧當(dāng)弧S-2遇到第一個動詞時遇到第一個動詞時,就把它置入就把它置入Main-Verb,但是在接下來的弧但是在接下來的弧S-3中發(fā)現(xiàn)中發(fā)現(xiàn)Main-Verb中剛才被置入的是助中剛才被置入的是助動詞動詞,網(wǎng)絡(luò)操作就

51、把網(wǎng)絡(luò)操作就把Main-Verb中的內(nèi)容添加到中的內(nèi)容添加到Auxs寄存器的寄存器的尾部。若尾部。若Auxs為空為空,添加操作與賦值是相同的添加操作與賦值是相同的,但是當(dāng)?shù)钱?dāng)Auxs非空非空時時(有幾個助動詞有幾個助動詞),這即是一個添加操作。另外這即是一個添加操作。另外,網(wǎng)絡(luò)中有一種網(wǎng)絡(luò)中有一種dummy節(jié)點(diǎn)節(jié)點(diǎn),這是一種空節(jié)點(diǎn)這是一種空節(jié)點(diǎn),用來表示一種形式上的或者預(yù)示用來表示一種形式上的或者預(yù)示的成分的成分,如形式上的主語等。如形式上的主語等。l弧弧S-4和和S-7就是對于被動態(tài)句子的分析和處理?;【褪菍τ诒粍討B(tài)句子的分析和處理?;-4主要是主要是識別被動態(tài)的謂語動詞識別被動態(tài)的謂語

52、動詞,一旦確認(rèn)是被動態(tài)一旦確認(rèn)是被動態(tài),則將當(dāng)前的主語作則將當(dāng)前的主語作為直接賓語為直接賓語,弧弧S-7用來處理被動態(tài)句子中用來處理被動態(tài)句子中by所引導(dǎo)的介詞短語所引導(dǎo)的介詞短語,該介詞的賓語就是實(shí)際上的主語。該介詞的賓語就是實(shí)際上的主語。1.8 基于統(tǒng)計的語言處理技術(shù)基于統(tǒng)計的語言處理技術(shù) n統(tǒng)計語言模型:試圖捕獲自然語言的統(tǒng)計規(guī)統(tǒng)計語言模型:試圖捕獲自然語言的統(tǒng)計規(guī)律以改善各種自然語言應(yīng)用系統(tǒng)的性能。律以改善各種自然語言應(yīng)用系統(tǒng)的性能。n廣泛應(yīng)用于語音識別、手寫體文字識別、機(jī)廣泛應(yīng)用于語音識別、手寫體文字識別、機(jī)器翻譯、鍵盤輸入、信息檢索領(lǐng)域。器翻譯、鍵盤輸入、信息檢索領(lǐng)域。n統(tǒng)計語言建

53、模相當(dāng)于對各種語言單位如字、統(tǒng)計語言建模相當(dāng)于對各種語言單位如字、詞、句子或整篇文章進(jìn)行概率分布的估計。詞、句子或整篇文章進(jìn)行概率分布的估計。113概率概率最大似然估計最大似然估計現(xiàn)代漢語字頻統(tǒng)計結(jié)果:現(xiàn)代漢語字頻統(tǒng)計結(jié)果:前前20個最高頻漢字及其頻率個最高頻漢字及其頻率條件概率條件概率例例全概率公式全概率公式貝葉斯定理貝葉斯定理先驗概率、后驗概率先驗概率、后驗概率例例解解定義定義u給定所有可能的句子給定所有可能的句子s,統(tǒng)計語言模型是一個概率分布,統(tǒng)計語言模型是一個概率分布p(s)。u假設(shè)一個句子假設(shè)一個句子S可以表示為一個序列可以表示為一個序列S=w1w2wn, 語言模型就語言模型就是要求

54、句子是要求句子S的概率的概率P(S): Wi是句中的第是句中的第i個詞,個詞,hi=w1,w2,wn-1稱為歷史。稱為歷史。up(我是一個學(xué)生我是一個學(xué)生) =p (我,是,一,個,學(xué)生我,是,一,個,學(xué)生) =p (我我) p(是是|我我) p(一一|我,是我,是) p(個個|我,是,一我,是,一) p (學(xué)生學(xué)生|我,是,一,個我,是,一,個) 上述概率的計算量太大,解決問題的方法是將所有歷史w1w2wi-1按照某個規(guī)則映射到等價類S(w1w2wi-1),等價類的數(shù)目遠(yuǎn)遠(yuǎn)小于不同歷史的數(shù)目,即假定:)(|()|(121121iiiiwwwSwpwwwwp 由于語言模型的訓(xùn)練文本由于語言模型

55、的訓(xùn)練文本T的規(guī)模及其分布存在著的規(guī)模及其分布存在著一定的局面性和片面性,許多合理的語言搭配現(xiàn)象一定的局面性和片面性,許多合理的語言搭配現(xiàn)象沒有出現(xiàn)在沒有出現(xiàn)在T中。中。 例如:一個詞串例如:一個詞串Wi-N+1Wi 沒有出現(xiàn)在訓(xùn)練文本沒有出現(xiàn)在訓(xùn)練文本T中,該詞串對應(yīng)的上下文條件概率中,該詞串對應(yīng)的上下文條件概率p(Wi|Wi-N+1Wi )=0,從而導(dǎo)致該詞串所在的語句,從而導(dǎo)致該詞串所在的語句S的出現(xiàn)概率的出現(xiàn)概率p(S )=0。127當(dāng)前主要語言模型當(dāng)前主要語言模型uN-gramN-gram模型模型u決策樹模型決策樹模型u指數(shù)模型(最大熵模型)指數(shù)模型(最大熵模型)u整句模型整句模型u

56、文法模型文法模型u概率上下文無關(guān)文法概率上下文無關(guān)文法u鏈文法鏈文法u概率依存文法概率依存文法u自適應(yīng)模型自適應(yīng)模型N-gram模型模型u實(shí)際應(yīng)用中,由于嚴(yán)重的數(shù)據(jù)稀疏和系統(tǒng)處理能力的限制,實(shí)際應(yīng)用中,由于嚴(yán)重的數(shù)據(jù)稀疏和系統(tǒng)處理能力的限制,統(tǒng)計語言建模只能考慮有限長度的歷史。統(tǒng)計語言建模只能考慮有限長度的歷史。u數(shù)據(jù)稀疏問題可能會錯誤地推導(dǎo)出小概率事件是不重要的。數(shù)據(jù)稀疏問題可能會錯誤地推導(dǎo)出小概率事件是不重要的。u當(dāng)兩個歷史的最近的當(dāng)兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為到同一個等價類,在此情況下的模型稱

57、之為N-Gram模型。模型。uN-Gram模型被稱為一階馬爾科夫鏈。模型被稱為一階馬爾科夫鏈。 N的值不能太大,否則的值不能太大,否則計算仍然太大。計算仍然太大。u根據(jù)最大似然估計,語言模型的參數(shù):根據(jù)最大似然估計,語言模型的參數(shù):u其中,其中,C(w1w2wi)表示表示w1w2wi在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)。在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)。)()()|(121121121iiiiiwwwCwwwwCwwwwpu通過將語言模擬成通過將語言模擬成N-1階馬爾科夫源,階馬爾科夫源,N-gram模型模型減少了參數(shù)估計的維數(shù):減少了參數(shù)估計的維數(shù):uN的選擇要考慮參數(shù)估計的穩(wěn)定性和描述能力的折的選擇要考慮參數(shù)估計

58、的穩(wěn)定性和描述能力的折衷。衷。u二元語法(二元語法(Bigram)和三元語法)和三元語法Trigram是通常的是通常的選擇。選擇。129niiNiiwwwpsp111),|()( Bigram Trigram 130N N的選擇:可靠性的選擇:可靠性 vs. vs. 辨別力辨別力“我我 正在正在 _ ”講課講課? ?圖書館圖書館? ?聽課聽課? ?學(xué)習(xí)學(xué)習(xí)? ?借書借書?“我我 正在正在 圖書館圖書館 _”_”學(xué)習(xí)學(xué)習(xí)? ? 借書借書? 可靠性可靠性 vs. vs. 辨別力辨別力l更大的更大的n: n: 對下一個詞出現(xiàn)的約束性信息對下一個詞出現(xiàn)的約束性信息更多,更大的辨別力;更多,更大的辨別力

59、;l更小的更小的n: n: 在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計結(jié)果,更高的可靠性。多,更可靠的統(tǒng)計結(jié)果,更高的可靠性。 構(gòu)造方法構(gòu)造方法p采用語言學(xué)家構(gòu)造的詞的語法分類體系,按詞性采用語言學(xué)家構(gòu)造的詞的語法分類體系,按詞性進(jìn)行詞類劃分,借助于詞性標(biāo)注技術(shù),構(gòu)造基于進(jìn)行詞類劃分,借助于詞性標(biāo)注技術(shù),構(gòu)造基于詞性的詞性的N-POSN-POS模型。模型。p采用詞的自動聚類技術(shù),自動構(gòu)造基于詞的自動采用詞的自動聚類技術(shù),自動構(gòu)造基于詞的自動聚類的類聚類的類N-gramN-gram模型。模型。133基于詞類的基于詞類的N-gram模型模型134類模型提出的意義:類模型提

60、出的意義:降低模型參數(shù)的規(guī)模;降低模型參數(shù)的規(guī)模;數(shù)據(jù)稀疏問題的一種解決方式。數(shù)據(jù)稀疏問題的一種解決方式。幾種模型比較幾種模型比較基于詞的基于詞的N-gramN-gram模型模型對近鄰語言約束關(guān)系的描述能對近鄰語言約束關(guān)系的描述能力最強(qiáng),應(yīng)用程度最為廣泛。一般力最強(qiáng),應(yīng)用程度最為廣泛。一般N N小于等于小于等于3 3,難,難以描述長距離的語言約束關(guān)系。以描述長距離的語言約束關(guān)系。N-POSN-POS模型模型的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏的參數(shù)空間最小,一般不存在數(shù)據(jù)稀疏問題,可以構(gòu)造高元模型,用于描述長距離的語言問題,可以構(gòu)造高元模型,用于描述長距離的語言約束關(guān)系。但由于詞性數(shù)目過少,過于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論