




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第七章自然語(yǔ)言處理7.1 詞法分析7.2 句法分析7.3 語(yǔ)義分析習(xí)題7.4 實(shí)驗(yàn):Python中文文本分析與可視化7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.1 詞法分析概述將輸入的句子字串轉(zhuǎn)換成詞序列并標(biāo)記出各詞的詞性。這里所說(shuō)的“字”并不僅限于漢字,也可以指標(biāo)點(diǎn)符號(hào)、外文字母、注音符號(hào)和阿拉伯?dāng)?shù)字等任何可能出現(xiàn)在文本中的文字符號(hào),所有這些字符都是構(gòu)成詞的基本單元。不同的語(yǔ)言對(duì)詞法分析有不同的要求,例如英語(yǔ)和漢語(yǔ)就有較大的差距。例如:“我們研究所有東西”,可以是“我們研究所有東西”也可是“我們研究所有東西” 。英語(yǔ)等語(yǔ)言的單詞之間是用空格自然分開(kāi)的,很容易切分一個(gè)單詞,因而很方便找出句子
2、的每個(gè)詞匯。例如:“We study everything”,分詞結(jié)果為“Westudyeverything”。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法1、基于字符串匹配的方法 基于字符串匹配的方法又稱為機(jī)械分詞方法或字典匹配方法,它主要依據(jù)詞典的信息,按照一定的策略將待切分的漢字串與詞典中的詞條逐一匹配,若在詞典中找到該詞條,則匹配成功,否則做其它相應(yīng)的處理。 (1)正向最大匹配分詞算法 所謂詞典正向最大匹配就是將一段字符串進(jìn)行分隔,其中分隔的長(zhǎng)度有限制,然后將分隔的子字符串與字典中的詞進(jìn)行匹配,如果匹配成功則進(jìn)行下一輪匹配,直到所有字符串處理完畢,否則將子字符串從末尾
3、去除一個(gè)字,再進(jìn)行匹配,如此反復(fù)。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法1、基于字符串匹配的方法 (1)正向最大匹配分詞算法 其基本思想是:假設(shè)己知機(jī)器詞典中最長(zhǎng)詞條的長(zhǎng)度為N,則以N作為減字開(kāi)始的長(zhǎng)度標(biāo)準(zhǔn),首先將待掃描的文本串S從左向右截取長(zhǎng)度為N的字符串W1,然后在詞典中查找是否存在該字符串W1的詞條。如果匹配成功,則W1標(biāo)記為切分出的詞,再?gòu)拇龗呙栉谋敬腘+1位置開(kāi)始掃描;如果匹配失敗,將截取長(zhǎng)度減1后,再?gòu)腟中截取此長(zhǎng)度的字符串W1,重復(fù)上述匹配過(guò)程,直至截取長(zhǎng)度為1為止。以掃描完句子作為整個(gè)匹配過(guò)程結(jié)束。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本
4、分詞方法1、基于字符串匹配的方法 (2)逆向最大匹配分詞算法 逆向最大匹配分詞法,其基本思想與正向最大匹配分詞法大體一致,只是掃描方向換成了從右至左。換句話說(shuō),當(dāng)掃描漢語(yǔ)句子時(shí),根據(jù)詞典中最長(zhǎng)詞條的長(zhǎng)度,從句末開(kāi)始向左截取出漢語(yǔ)字符串與詞典中的詞條匹配,匹配流程與減字法相同,直至掃描到句首為止。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法1、基于字符串匹配的方法 (3)雙向最大匹配分詞算法 這種分詞算法側(cè)重于分詞過(guò)程中檢錯(cuò)和糾錯(cuò)的應(yīng)用,其基本原理是對(duì)待切分字符串采用正向最大匹配和逆向最大匹配分別進(jìn)行正向和逆向掃描和初步切分,并將正向最大匹配初步切分結(jié)果和逆向最大匹配初步切分結(jié)
5、果進(jìn)行比較,如果兩組結(jié)果一致,則判定分詞結(jié)果正確,如果存在不一致,則判定存在著切分歧義,需要進(jìn)一步采取技術(shù)手段來(lái)消解歧義。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法2、基于統(tǒng)計(jì)的方法 (1)隱馬爾可夫模型 假設(shè)我手里有三個(gè)不同的骰子。第一個(gè)骰子是我們平常見(jiàn)的骰子(稱這個(gè)骰子為D6),6個(gè)面,每個(gè)面(1,2,3,4,5,6)出現(xiàn)的概率是1/6。第二個(gè)骰子是個(gè)四面體(稱這個(gè)骰子為D4),每個(gè)面(1,2,3,4)出現(xiàn)的概率是1/4。第三個(gè)骰子有八個(gè)面(稱這個(gè)骰子為D8),每個(gè)面(1,2,3,4,5,6,7,8)出現(xiàn)的概率是1/8。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2
6、基本分詞方法2、基于統(tǒng)計(jì)的方法 (1)隱馬爾可夫模型7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法2、基于統(tǒng)計(jì)的方法 (1)隱馬爾可夫模型7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法2、基于統(tǒng)計(jì)的方法 (2)條件隨機(jī)場(chǎng)(CRF)7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.2 基本分詞方法2、基于統(tǒng)計(jì)的方法 (2)條件隨機(jī)場(chǎng)(CRF) 它們的區(qū)別是:HMM 是有向圖,CRF 是無(wú)向圖;HMM 計(jì)算的是狀態(tài)和觀測(cè)的聯(lián)合概率,而 CRF 計(jì)算的是狀態(tài)基于觀測(cè)的條件概率。HMM 多用于那種狀態(tài)“原生”,觀測(cè)是狀態(tài)“生成”出來(lái)的場(chǎng)景。如,用 HMM 來(lái)生成一段語(yǔ)音,則
7、狀態(tài)對(duì)應(yīng)的是音節(jié)(聲韻母)或文字,而觀測(cè)則是這個(gè)音節(jié)所對(duì)應(yīng)的聲學(xué)特征。CRF 則多用于那種觀測(cè)“原生”。狀態(tài)“后天”產(chǎn)生,用來(lái)標(biāo)記觀測(cè)的情況。如,用 CRF 來(lái)做文本實(shí)體標(biāo)記。輸入一句話“我有一個(gè)蘋(píng)果”,CRF 處理后將“蘋(píng)果”標(biāo)記成了“水果”。這個(gè)時(shí)候,“蘋(píng)果”是觀測(cè),而“水果”則是對(duì)應(yīng)的狀態(tài)。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.3 詞性標(biāo)注詞性(part-of-speech)是詞匯基本的語(yǔ)法屬性,通常也稱為詞性。詞性標(biāo)注(part-of-speech tagging),又稱為詞類標(biāo)注或者簡(jiǎn)稱標(biāo)注,是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,也即確定每個(gè)詞是名詞、動(dòng)詞、形容
8、詞或者其他詞性的過(guò)程。詞性標(biāo)注是很多NLP任務(wù)的預(yù)處理步驟,如句法分析,經(jīng)過(guò)詞性標(biāo)注后的文本會(huì)帶來(lái)很大的便利性,但也不是不可或缺的步驟。7.1 詞法分析 第七章 自然語(yǔ)言處理7.1.4 實(shí)體識(shí)別命名實(shí)體識(shí)別(Named Entity Recognition,NER),又稱“專名識(shí)別”,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。一般來(lái)說(shuō),命名實(shí)體識(shí)別任務(wù)就是識(shí)別出待處理文本中三大類(實(shí)體類、時(shí)間類和數(shù)字類)、七小類(人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣和百分比)實(shí)體名。第七章自然語(yǔ)言處理7.1 詞法分析7.2 句法分析7.3 語(yǔ)義分析習(xí)題7.4 實(shí)驗(yàn):Python
9、中文文本分析與可視化7.2 句法分析 第七章 自然語(yǔ)言處理7.2.1 句法分析概述句法分析是對(duì)用戶輸入的自然語(yǔ)言進(jìn)行詞匯短語(yǔ)的分析,目的是識(shí)別句子的句法結(jié)構(gòu),實(shí)現(xiàn)自動(dòng)句法分析過(guò)程。分析的目的就是找出詞、短語(yǔ)等的相互關(guān)系以及各自在句子中的作用等,并以一種層次結(jié)構(gòu)來(lái)加以表達(dá)。這種層次結(jié)構(gòu)可以是從屬關(guān)系、直接成分關(guān)系,也可以是語(yǔ)法功能關(guān)系。句法分析是由專門設(shè)計(jì)的分析器進(jìn)行的,其分析過(guò)程就是構(gòu)造句法樹(shù)的過(guò)程,將每個(gè)輸入的合法語(yǔ)句轉(zhuǎn)換為一棵句法分析樹(shù)。一個(gè)句子是由各種不同的句子成分組成的。這些成分可以是單詞、詞組或從句。句子成分還可以按其作用分為主語(yǔ)、謂語(yǔ)、賓語(yǔ)、賓語(yǔ)補(bǔ)語(yǔ)、定語(yǔ)、狀語(yǔ)、表語(yǔ)等,這種關(guān)系可
10、用一棵樹(shù)來(lái)表示。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.1 句法分析概述如對(duì)句子“妖精抓走了唐僧”,可用圖示的樹(shù)形結(jié)構(gòu)來(lái)表示:7.2 句法分析 第七章 自然語(yǔ)言處理7.2.2 自頂向下的句法分析從分析樹(shù)的頂部向底部方向構(gòu)造分析樹(shù),是一個(gè)從根結(jié)點(diǎn)到葉結(jié)點(diǎn)的過(guò)程。由語(yǔ)法開(kāi)始符s出發(fā),選擇合適的產(chǎn)生式規(guī)則進(jìn)行推導(dǎo),直到推導(dǎo)出句子為止。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.3 自底向上的句法分析從分析樹(shù)的底部向頂部方向構(gòu)造分析樹(shù),是一個(gè)從葉結(jié)點(diǎn)到根結(jié)點(diǎn)的過(guò)程。從給定的句子出發(fā),逆向使用產(chǎn)生式規(guī)則進(jìn)行規(guī)約,直到把句子規(guī)約成語(yǔ)法開(kāi)始符S為止。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.3
11、自底向上的句法分析1、如何構(gòu)造標(biāo)準(zhǔn)LR分析器 構(gòu)造出所有的分析狀態(tài)和這些分析狀態(tài)之間的轉(zhuǎn)移關(guān)系可以用有限狀態(tài)自動(dòng)機(jī)來(lái)描述。LR分析算法把分析狀態(tài)和分析動(dòng)作的對(duì)應(yīng)關(guān)系組織在一張分析表中,通過(guò)查表即可得到分析動(dòng)作。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.3 自底向上的句法分析2、自底向上的LR分析器的分析 (1)移入:將下一個(gè)輸入符號(hào)移到棧的頂端。 (2)規(guī)約:根據(jù)規(guī)則,將棧頂?shù)娜舾蓚€(gè)符號(hào)替換成一個(gè)符號(hào)。 (3)接受:句子中所有詞語(yǔ)都已移進(jìn)棧中,且棧中只剩下一個(gè)符號(hào)S,語(yǔ)法分析成功,完成。 (4)拒絕:句子中所有詞語(yǔ)都已移進(jìn)棧中,棧中并非只有一個(gè)符號(hào)S,也無(wú)法進(jìn)行任何規(guī)約操作,分析失敗,結(jié)束
12、。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.3 自底向上的句法分析3、LR分析算法思想 (1)輸入: 待分析的句子w 語(yǔ)法G的LR分析表 (2)輸出: w合法,輸出acc 否則err7.2 句法分析 第七章 自然語(yǔ)言處理7.2.3 自底向上的句法分析4、LR分析算法過(guò)程7.2 句法分析 第七章 自然語(yǔ)言處理7.2.4 概率上下文無(wú)關(guān)文法基于PCFG的句法分析: (1)設(shè)句子w1m=w1 w2 wm,給定PCFG G (2)句法分析的任務(wù):在眾多可能的分析樹(shù)t中尋找具有最大概率值的分析樹(shù) t = argmaxt P(t|w1m,G) (3)問(wèn)題:如何計(jì)算一棵分析樹(shù)的概率?在PCFG中,一棵分
13、析樹(shù)t的概率定義為得到該分析樹(shù)所用到的所有產(chǎn)生式 Nki j (k = 1,2,n) 的概率的乘積:P(t) = k=1,.,n P(Nki j )。7.2 句法分析 第七章 自然語(yǔ)言處理7.2.4 概率上下文無(wú)關(guān)文法S np vp 1.0np np pp 0.4pp p np 1.0np John 0.1vp v np 0.7np bone 0.18vp vp pp 0.3np star 0.04p with 1.0np fish 0.18v ate 1.0np telescope 0.1 7.2 句法分析 第七章 自然語(yǔ)言處理7.2.4 概率上下文無(wú)關(guān)文法第七章自然語(yǔ)言處理7.1 詞法分析
14、7.2 句法分析7.3 語(yǔ)義分析習(xí)題7.4 實(shí)驗(yàn):Python中文文本分析與可視化7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.1 語(yǔ)義分析概述語(yǔ)義分析,其實(shí)就是要識(shí)別一句話所表達(dá)的實(shí)際意義。比如弄清楚“干什么了”,“誰(shuí)干的”,“這個(gè)行為的原因和結(jié)果是什么”以及“這個(gè)行為發(fā)生的時(shí)間、地點(diǎn)及其所用的工具或方法”等。 對(duì)于不同的語(yǔ)言單位,語(yǔ)言分析的任務(wù)各不相同:在詞的層次上,語(yǔ)義分析的基本任務(wù)是進(jìn)行詞義消歧;在句子層面上,語(yǔ)義角色標(biāo)注是所關(guān)心的問(wèn)題;在文章層次上,指代消解、篇章語(yǔ)義分析是重點(diǎn)。7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.2 詞義消歧自然語(yǔ)言中一個(gè)詞具有多種含義的現(xiàn)象非常普遍。如何
15、自動(dòng)獲悉某個(gè)詞的多種含義;或者已知某個(gè)詞有多種含義,如何根據(jù)上下文確認(rèn)其含義,是詞義消歧研究的內(nèi)容。7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.2 詞義消歧1、基于詞典的詞義消歧 基于詞典的詞義消歧方法研究的早期代表工作是M.Lesk 于1986 提出的。給定某個(gè)待消解詞及其上下文,該工作的思想是計(jì)算語(yǔ)義詞典中各個(gè)詞義的定義與上下文之間的覆蓋度,選擇覆蓋度最大的作為待消解詞在其上下文下的正確詞義。如果一個(gè)詞沒(méi)有語(yǔ)義范疇信息,我們可以求助于它的一般語(yǔ)義描述?;谠~典的消歧方法一般有三種: (1)基于語(yǔ)義定義的消歧6 認(rèn)為詞典中詞條本身的定義就可以作為判斷其語(yǔ)義的一個(gè)很好的依據(jù)條件。7.3 語(yǔ)義
16、分析 第七章 自然語(yǔ)言處理7.3.2 詞義消歧1、基于詞典的詞義消歧 (2)基于類義詞典的消歧 上下文詞匯的語(yǔ)義范疇大體上確定了這個(gè)上下文的語(yǔ)義范疇,并且上下文的語(yǔ)義范疇可以反過(guò)來(lái)確定詞匯的哪一個(gè)語(yǔ)義被使用。 (3)基于雙語(yǔ)詞典的消歧 利用雙語(yǔ)對(duì)照詞典幫助消歧。指的是第二語(yǔ)言語(yǔ)料庫(kù)翻譯基礎(chǔ)上的消歧。7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.2 詞義消歧2、有監(jiān)督詞義消歧 (1) 基于樸素貝葉斯分類器的詞義消歧方法 樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。 (2) 基于最大熵的詞義消歧方法 基于最大熵
17、的詞義消歧方法基本思路是這樣的:每個(gè)詞表達(dá)不同含意時(shí)其上下文(語(yǔ)境)往往不同,即不同的詞義對(duì)應(yīng)不同的上下文。因此,可以將詞的上下文作為特征信息利用最大熵模型對(duì)詞的語(yǔ)義進(jìn)行分類。7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.2 詞義消歧3、無(wú)監(jiān)督和半監(jiān)督詞義消歧 雖然有監(jiān)督的消歧方法能夠取得較好的消歧性能,但需要大量的人工標(biāo)注語(yǔ)料,費(fèi)時(shí)費(fèi)力。為了克服對(duì)大規(guī)模語(yǔ)料的需要,半監(jiān)督或無(wú)監(jiān)督方法僅需要少量或不需要人工標(biāo)注語(yǔ)料。一般說(shuō)來(lái),雖然半監(jiān)督或無(wú)監(jiān)督方法不需要大量的人工標(biāo)注數(shù)據(jù),但依賴于一個(gè)大規(guī)模的未標(biāo)注語(yǔ)料,以及在該語(yǔ)料上的句法分析結(jié)果。另一方面,待消解詞的覆蓋度可能會(huì)受影響。7.3 語(yǔ)義分析 第
18、七章 自然語(yǔ)言處理7.3.3 語(yǔ)義角色標(biāo)注 語(yǔ)義角色標(biāo)注(Semantic Role Labeling,SRL)以句子的謂詞為中心,不對(duì)句子所包含的語(yǔ)義信息進(jìn)行深入分析,只分析句子中各成分與謂詞之間的關(guān)系,即句子的謂詞(Predicate)- 論元(Argument)結(jié)構(gòu),并用語(yǔ)義角色來(lái)描述這些結(jié)構(gòu)關(guān)系,是許多自然語(yǔ)言理解任務(wù)(如信息抽取,篇章分析,深度問(wèn)答等)的一個(gè)重要中間步驟。在研究中一般都假定謂詞是給定的,所要做的就是找出給定謂詞的各個(gè)論元和它們的語(yǔ)義角色。 7.3 語(yǔ)義分析 第七章 自然語(yǔ)言處理7.3.3 語(yǔ)義角色標(biāo)注傳統(tǒng)的SRL系統(tǒng)大多建立在句法分析基礎(chǔ)之上,通常包括5個(gè)流程: (1)構(gòu)建一棵句法分析樹(shù),例如,圖7-13是對(duì)句子“小明昨天晚上在公園遇到了小紅”進(jìn)行依存句法分析得到的一棵句法樹(shù)。 (2)從句法樹(shù)上識(shí)別出給定謂詞的候選論元。 (3)候選論元剪除:一個(gè)句子中的候選論元可能很多,候選論元剪除就是從大量的候選項(xiàng)中剪除那些最不可能成為論元的候選項(xiàng)。 (4)論元識(shí)別:這個(gè)過(guò)程是從上一步剪除之后的候選中判斷哪些是真正的論元,通常
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人出售房產(chǎn)合同范本
- 加裝空調(diào)工程合同范本
- 購(gòu)房合同有購(gòu)房合同范本
- 單位合伙建房合同范例
- 關(guān)于獨(dú)家合同范本
- 醫(yī)藥會(huì)議合同范本
- 單位給買車合同范本
- 化工項(xiàng)目整體承建合同范本
- 產(chǎn)品總經(jīng)銷合同范本
- 醫(yī)院加盟合同范本
- 大學(xué)學(xué)院學(xué)生心理危機(jī)預(yù)防與干預(yù)工作預(yù)案
- 國(guó)有土地上房屋征收與補(bǔ)償條例 課件
- 安全文明施工管理(EHS)方案(24頁(yè))
- 水廠項(xiàng)目基于BIM技術(shù)全生命周期解決方案-城市智慧水務(wù)講座課件
- 幼兒園繪本:《閃閃的紅星》 紅色故事
- 三年級(jí)學(xué)而思奧數(shù)講義.doc
- 投標(biāo)人基本情況一覽表格
- 鐵路建設(shè)項(xiàng)目施工企業(yè)信用評(píng)價(jià)辦法(鐵總建設(shè)〔2018〕124號(hào))
- 叉形件加工設(shè)計(jì)與分析論文
- 高強(qiáng)螺栓質(zhì)保書(shū)
- 市政工程施工進(jìn)度網(wǎng)絡(luò)圖
評(píng)論
0/150
提交評(píng)論