版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1第四章語義分析自然語言處理導(dǎo)論語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents2詞義消歧4.4語義角色標注4.54.1.1詞匯語義學(xué)4.1.2句子語義學(xué)語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents3詞義消歧4.4語義角色標注4.54語義分析4掌握一種語言意味著懂得如何產(chǎn)生并理解數(shù)量無限的該種語言句子的意義。研究語言意義的科學(xué)被稱為語義學(xué)(Semantics)。語義問題也被大多數(shù)語言學(xué)家認為是語言的核心問題,同時也受到了包括哲學(xué)、邏輯學(xué)、心理學(xué)以及計算機等眾多學(xué)科的廣泛關(guān)注。自然語言處理目標就是要使計算機具有理解和運用自然語言的能力。因此,語義也是自然語言處理的關(guān)鍵問題和難點問題。語義研究需要以語義的形式化結(jié)構(gòu)表示為基礎(chǔ)。這種形式化結(jié)構(gòu)表示稱之為語義表示(SemanticRepresentation)4.1語義學(xué)概述5什么是意義是一個困擾了哲學(xué)家和語言學(xué)家數(shù)千年的問題。我們可以非常容易地理解中文,并且用漢字組成對其他人來說也是有意義的句子。我們也可以知道某個詞語、句子是否有意義,還可以通過一個句子衍推出另外一個句子。意義從何而來?語言的意義的本質(zhì)又是什么?學(xué)術(shù)界對這些問題眾說紛紜沒有定論中國古代以“字”為核心的訓(xùn)詁語義研究達到了很高的水準,公元前2世紀就有了專門解釋詞義的專著《爾雅》。先秦時期,荀子和墨子就開始對“名”與“實”的關(guān)系進行討論。古希臘哲學(xué)家蘇格拉底、亞里士多德等也都在其哲學(xué)著作中探討過語言的意義。4.1語義學(xué)概述6語義學(xué)的研究目標就是發(fā)現(xiàn)和闡述關(guān)于意義的知識。1883年由法國語言學(xué)家MichelBréal發(fā)表的論文中首次提出了語義學(xué)的概念從語言表達層面劃分,語義學(xué)的研究大致可以分為三個層面:(1)詞匯語義學(xué)(LexicalSemantics)主要包括詞義問題、詞匯間關(guān)系、詞匯場、成語的語義等;(2)句子語義學(xué)(SententialSemantics)主要以真值條件語義理論、配價理論、生成理論等為基礎(chǔ)研究句義關(guān)系以及語序等問題;(3)話語語義學(xué)(DiscourseSemantics)主要研究句子以上層次結(jié)構(gòu)的意義,包括話語銜接、話語連貫、語用過程解釋等。4.1.1詞匯語義學(xué)7詞是語言中能夠獨立運用的最小的單位,也是音、形、義的結(jié)合體。詞語通過搭配組合,可以構(gòu)建出短語、句子、篇章等復(fù)雜的語言結(jié)構(gòu)。語義學(xué)自創(chuàng)建之初,就將詞匯語義作為重要的研究目標。
詞匯語義學(xué)主要研究單個詞語的意義以及詞匯之間的相互關(guān)系。4.1.1詞匯語義學(xué)81.
詞匯語義理論詞義(WordMeaning)有很多的方面,可以從不同的角度分析和定義,因而出現(xiàn)了包括語義場理論、語義成分分析、并置理論、框架語義理論等眾多詞匯語義理論。語義場理論(SemanticField)也稱作詞義場理論(LexicalField)認為語言中詞匯的意義是相互聯(lián)系的,構(gòu)成一個完整的系統(tǒng)和網(wǎng)絡(luò),具有某些相同語義特征的一組詞聚而成場。根據(jù)語義場理論,不能夠孤立的研究一個詞的詞義,只有通過分析比較詞與詞之間的關(guān)系,才能確定一個詞的真正意義。
4.1.1詞匯語義學(xué)91.
詞匯語義理論語義成分分析(ComponentialAnalysis)理論認為詞義可以由最小的語義成分組合而成。這種最小的語義成分又被成為語義特征。例如:可以定義ADULT、YOUNG、MALE、FEMALE為語義特征,根據(jù)這些特征可以表達詞匯的意義:
man:ADULT+MALE
woman:ADULT+FEMALE
boy:YOUNG+MALE
girl:YOUNG+FEMALE4.1.1詞匯語義學(xué)101.
詞匯語義理論義元理論(TheoryofLexcialPrimitives)的核心思想是自然語言中包含非常少部分的詞語,這些詞語可以用于解釋絕大部分詞匯的意義。例如:man和fish是義元,而fishy和manliness則是衍生詞??梢允褂昧x元對其他詞語進行解釋。根據(jù)文獻[164]中的定義,boy、girl、woman、man使用義元解釋如下:
boy:younghumanbeingthatonethinksofasbecomingaman.
girl:younghumanbeingthatonethinksofasbecomingawoman.
woman:humanbeingthatcouldbesomeone’smother.
man:humanbeingthatcouldcauseawomantobesomeone’smother4.1.1詞匯語義學(xué)111.
詞匯語義理論董振東教授所創(chuàng)建的知網(wǎng)(HowNet)也結(jié)合了義元理論,構(gòu)建了包含2540多個義元的精細的語義描述體系,并為237974個漢語和英語詞所代表的概念進行了標注。例如:Hownet中美味、難題的定義如下所示:美味:edible|食物:modifier=GoodTaste|好吃難題:problem|問題:modifier=difficult|難HowNet中義元采用中英雙語的形式進行描述。上例子中“edible|食物”、“GoodTaste|好吃”是義元?!半y題”是由核心義元“problem|問題”以及對核心義元的附加描述義元“difficult|難”組成。4.1.1詞匯語義學(xué)121.
詞匯語義理論框架語義學(xué)(FrameSemantics)則認為詞義只能在相應(yīng)的知識框架背景中才能得到理解。在意義的理解過程中,概念并不是雜亂無章的,很多概念往往具有一種同現(xiàn)的趨勢。例如:文獻[166]中定義的“RISK”的框架是由如下成分組成:RISKframe:
Chance(uncentaintyaboutthefuture)
Harm
Victim(oftheharm)
ValuedObject(potentiallyendangeredbytherisk)
Situation(whichgivesrisetotherisk)
Deed(thatbringsabouttheSituation)
Actor(oftheDeed)
Gain(bytheActorintakingtherisk)
Purpose(oftheActorintheDeed)
Beneficiaryandmotivation(fortheActor4.1.1詞匯語義學(xué)132.詞匯間的關(guān)系詞匯之間的關(guān)系(LexcialRelations)是詞匯語義學(xué)研究的另一個重點問題。關(guān)系類型可以分為三大類:形體關(guān)系、意義關(guān)系和實體關(guān)系形體關(guān)系(FormRelations)主要研究詞匯的聲音形體和拼寫之間的關(guān)系意義關(guān)系(SenseRelations)主要關(guān)注詞匯意義之間的關(guān)聯(lián)性、相似性、對立性等關(guān)系。實體關(guān)系(ObjectRelations)則主要研究詞匯之間的客觀關(guān)系。4.1.1詞匯語義學(xué)142.詞匯間的關(guān)系WordNet是目前最常用的英語詞匯知識資源庫。在其中詞匯按照義項組合成同義集(Synset),每個義項表達不同的概念。名詞、動詞、形容詞和副詞各自獨立的組合成網(wǎng)絡(luò)。4.1.1詞匯語義學(xué)152.詞匯間的關(guān)系在WordNet中名詞和動詞可以根據(jù)上下位關(guān)系或者部分整體關(guān)系構(gòu)成層級結(jié)構(gòu)bank,cant,camber(aslopeintheturnofaroadortrack)
=>slope,incline,side
=>geologicalformation,formation
=>object,physicalobject
=>physicalentity
=>entity
4.1.2句子語義學(xué)16句子語義學(xué)主要是在句子層面對意義的研究。人們通常通過句子來表達完整語義,相較于詞匯句子也復(fù)雜得多,因此非常多的工作都是圍繞句子語義學(xué)從各個角度開展,包括語音、語法、邏輯、認知、心理學(xué)等等。本節(jié)中,從語言學(xué)角度對句子語義學(xué)的主要理論進行簡要介紹。語言是對外部世界的編碼,句子就是人們對客觀世界的概念表征,人們對句子意義的認知始于真假判斷。真值條件語義學(xué)(Truth-conditionalSemantics)核心就是將意義定義為一個句子或句子所表達的命題為真時所必須滿足的一系列條件。該理論試圖通過解釋句子何時為真來定義給定句子或命題的意義。提出了一個檢驗句子真值的通用公---T公式:SistrueiffP,S代表某個句子,P代表句子的真值條件,iff表示“ifandonlyif”。例如:他是學(xué)生,S表示這個句子,P表示“他”所代表的人并且真的是學(xué)生的列表。真知條件語義學(xué)開創(chuàng)了用數(shù)理邏輯方法解釋自然語言的語義,用嚴格數(shù)學(xué)方法研究自然語言語義的方向。4.1.2句子語義學(xué)17在詞匯語義理論中語義成分分析理論認為詞義可以由最小的語義成分組合而成,在句子層面同樣也存在語義成分,這種語義成分通常稱作語義格(SemanticCase)。格語法(CaseGrammar)以及從格語法發(fā)展而來的框架語義學(xué)(FrameSemantics)都是以語義格為基礎(chǔ)。語義格也稱語義角色(SemanticRoles),又稱語義關(guān)系、主題關(guān)系(ThematicRelations)。認為句子中名詞短語總是與動詞相關(guān),并且以唯一可以識別的方式表示了名詞短語的語義格。“主語”、“賓語”等語法關(guān)系實際上都是表層結(jié)構(gòu)上的概念,語言的底層是用“施事”、“受事”、“工具”等概念所表示的句法語義關(guān)系。例如:Thekeyopenedthedoor.Theboyopenedthedoorwithakey.上述例子中的“key”在深層句法語義上始終是“工具”,但是它可以是主語,也可以是介詞with的賓語。4.1.2句子語義學(xué)18在格語法中對于詞庫中詞匯的每個詞條需要標明其格特征,對于名詞標明其可以作為的語義格(例如:“街道”需要標明[+LOCATION]),對于動詞需要標明其對應(yīng)的格框架。例如:BREAK可以放入如下格框架:
[(施事格)(受事格)(工具格)(方位格)]例如:他在房間里用錘子打破了玻璃杯。
根據(jù)BREAK框架得到:
[BREAK[Case-frame:
[AGENT:他
PATIENT:玻璃杯
INSTRUMENT:錘子
LOCATION:房間
]
]]
4.1.2句子語義學(xué)19句子之間也存在各種語義關(guān)系,把句子當(dāng)做一個整體,句子和句子之間的語義關(guān)系可以包含同義、反義、蘊含等。同義關(guān)系(Synonym)表示兩個不同的句子表達相同的意義。例如:a.他打碎了玻璃杯。b.玻璃杯被他打碎了。反義關(guān)系(Inconsistency)表示兩個句子的意義只能有一個與客觀事實相符。例如:a.他打碎了玻璃杯。b.玻璃杯完好的放在櫥窗里。蘊含關(guān)系(Entailment)表示兩個句子的意義,前者為真時后者必然為真,前者為假時后者可能為真也可能為假。例如:a.他拿著一本書去了校門口。b.書在他手里。預(yù)設(shè)關(guān)系(Presupposition)表示一個句子的意義是另外一個句子的前提。例如:a.復(fù)旦大學(xué)江灣校區(qū)管委會舉辦了迎新活動。b.復(fù)旦大學(xué)有多個校區(qū)。4.2.1謂詞邏輯表示法4.2.2框架表示法4.2.3語義網(wǎng)表示法語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents20詞義消歧4.4語義角色標注4.54.2語義表示21語義表示(SemanticRepresentation)是語義的符號化和形式化的過程,主要研究語義表示的通用原則和方法。為了使得計算機能夠處理自然語言的語義,就需要用恰當(dāng)?shù)哪J綄φZ義進行表示,因此語義表示方法也是自然語言理解的基礎(chǔ)。目前關(guān)于意義的定義和本質(zhì)還沒有定論,大量的語義學(xué)理論從不同角度開展討論已有的語義表示方法大多都是根據(jù)不同的語義學(xué)理論針對某項具體研究所提出的,有一定的針對性和局限性適用于詞匯、句子、篇章等各個層面各種應(yīng)用的通用語義表示方法還是一個亟待解決的問題本節(jié)中介紹常見的一階謂詞邏輯、框架、語義網(wǎng)等語義表示方法,分布式表示表示方法在下節(jié)中單獨介紹4.2.1謂詞邏輯表示法22數(shù)理邏輯(MathematicalLogic)在知識的形式化表示和機器的自動定理證明方面都有廣泛的應(yīng)用和很好的表現(xiàn),真值條件語言學(xué)中也是使用數(shù)理邏輯來研究自然語言的語義。自然語言的語義表示中也經(jīng)常采用數(shù)理邏輯的方法。其中常用的是謂詞邏輯(PredicateLogic)和命題邏輯(PropositionalLogic)。謂詞邏輯可以更細致的刻畫語義,可以表示事物的狀態(tài)、屬性、概念等事物性語義,也可以表示因果關(guān)系等規(guī)則性語義。4.2.1謂詞邏輯表示法23謂詞一般用P(x1,x2,···,xn)表示,P是謂詞名,x1,x2,···,xn表示某個獨立存在的事物或某個抽象的概念。如果謂詞P中的所有個體都是常量、變量或函數(shù),則稱該謂詞為一階謂詞(First
OrderPredicateLogic)如果某個個體本身又是一個一階謂詞,則稱P為二階謂詞例如:
謂詞:Teacher(x)表示x是教師,是一階謂詞。
句子:“老張是一名老師”可以表示為Teacher(老張)4.2.1謂詞邏輯表示法24除了直接使用單個謂詞和指代對象的常量、變量或者函數(shù)組成原子公式之外,還可以使用5種邏輯連接詞和量詞構(gòu)造復(fù)雜的表示,就是謂詞邏輯中的公式。原子公式是謂詞演算的基本組塊,運用連接詞可以組合多個原子公式,以構(gòu)成更加復(fù)雜的公式。(1)連接詞
?:“否定”(Negation)或“非”
∨:“析取”(Disjunction)或“或”
∧:“合取”(Conjunction)或“與”
→:“蘊含”(Implication)或“條件”
:“等價”(Equivalence)或“雙向蘊含”(2)量詞
?:全稱量詞(UniversalQuantifier),表示對個體域中的所有(或任意一個)個體x
?:存在量詞(ExistentialQuantifier),表示在個體域中存在個體x4.2.1謂詞邏輯表示法25
a.“有機器人都是紅色的”
謂詞定義:ROBOT(X)表示X是機器人;COLOR(X,Y)表示X的顏色為Y
謂詞公式:(?X)[ROBOT(X)∧COLOR(X,RED)]
b.“人人都愛護環(huán)境”
謂詞定義:MAN(X)表示X人;PROTECT(X,Y)表示X保護Y
謂詞公式:(?X)[MAN(X)→PROTECT(X,ENVIRONMENT)]
c.“小明不在3號房間”
謂詞定義:INROOM(X,Y)表示X在Y中
謂詞公式:?INROOM(XIAOMING,ROOM3)
4.2.1謂詞邏輯表示法26優(yōu)點:謂詞邏輯具有扎實的數(shù)學(xué)基礎(chǔ),一階謂詞邏輯具有充分的表達能力和完備的邏輯推理算
法,其推理過程和結(jié)果的準確性可以得到有效保證,因此可以精密地表達語義。缺點:使用一階謂詞邏輯表示語義并不簡單,通常需要如下步驟:(1)定義謂詞及個體:確定每個謂詞及個體的確切含義。
(2)變量賦值:根據(jù)所要表達的事物或概念,為每個謂詞中的變量賦予特定的值。
(3)謂詞公式構(gòu)造:根據(jù)所表達的語義,用適當(dāng)?shù)倪B接符號和量詞將各謂詞連接起來。4.2.2框架表示法27框架(Frame)表示法是以框架語義理論為基礎(chǔ)發(fā)展起來的一種語義表示方法??蚣苡脕肀硎舅懻搶ο螅ㄒ粋€事物、概念或者事件)的語義。每個框架由若干槽(Slot)組成,描述框架所討論對象的某一方面的屬性??植酪u擊事件框架:利用“恐怖襲擊事件”框架,句子“在位于巴黎11區(qū)的巴塔克蘭劇院,多名武裝分子在巴黎當(dāng)?shù)貢r間13日晚劫持了正在劇院觀看演出的大約1500名觀眾并與警方展開對峙?!钡恼Z義可以表示為:4.2.3語義網(wǎng)表示法28語義網(wǎng)絡(luò)(SemanticNetwork)是一種用實體及其語義關(guān)系來表達知識和語義的網(wǎng)絡(luò)圖。語義網(wǎng)絡(luò)由節(jié)點和弧組成:節(jié)點表示各種事件、事物、概念、屬性、動作等,也可以是一個語義子網(wǎng)絡(luò);弧表示節(jié)點之間的語義關(guān)系,并且是有方向和標注的,方向表示節(jié)點間的主次關(guān)系且方向不能隨意調(diào)換。圖4.1“大學(xué)”的語言網(wǎng)表示樣例4.2.3語義網(wǎng)表示法29語義網(wǎng)除了可以描述事物間包括類屬關(guān)系、聚集關(guān)系、時間關(guān)系、位置關(guān)系、推論關(guān)系等多
種復(fù)雜語義關(guān)系外,還可以通過增加節(jié)點的方法表示合取、析取、蘊含等語義表示中常用的連接
詞。例如,句子“如果明天下雨,就去看電影或者唱歌”的語義網(wǎng)表示如圖4.2所示圖4.2“如果明天下雨,就去看電影或者唱歌”的語言網(wǎng)表示樣例4.2.3語義網(wǎng)表示法30對于比較復(fù)雜的語義還能涉及“每一個”、“有一個”等量詞,使用語義網(wǎng)進行表示時可以通過引入分區(qū)技術(shù)進行實現(xiàn)。圖4.3“所有的學(xué)生都完成了課程設(shè)計”的語言網(wǎng)表示樣例語義網(wǎng)可以較好的把事物的屬性以及事物之間的各種語義聯(lián)系顯式的進行表示,也可以比較容易的實現(xiàn)語義檢索。但是,由于語義網(wǎng)沒有公認的形式表示體系,所表達的語義需要依賴分析算法對其進行解釋,表示形式的不唯一又進一步增加了其處理的復(fù)雜性。4.3.1單詞分布式表示4.3.2句子分布式表示4.3.3篇章分布式表示語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents31詞義消歧4.4語義角色標注4.54.3分布式表示32分布式表示(DistributedRepresentation)旨在將文本表示為低維空間下稠密的向量,并在低維表示空間中利用表示向量之間的計算關(guān)系,體現(xiàn)文本間的語義關(guān)聯(lián)。向量空間模型(VectorSpaceModel,VSM)闡述了將單詞和篇章表示為向量的思想。對文本的處理可以直觀地映射到向量空間,體現(xiàn)為對文本向量的加法、減法、距離度量等操作;將向量化的文本作為輸入,從而直接將統(tǒng)計學(xué)習(xí)與機器學(xué)習(xí)算法應(yīng)用在自然語言處理應(yīng)用上。分布式表示提出之前,許多自然語言處理算法采用獨熱表示(One-hotRepresentation),其中每個維度表示某個單詞是否在該文中出現(xiàn)。獨熱表示的維度和詞表的大小一致,存在表示稀疏性的問題,而且無法表示單詞之間的語義相似度分布式表示通過將文本表示為低維空間下稠密的向量,有效地解決了這一問題。當(dāng)應(yīng)用在下游任務(wù)時,文本分布式表示也體現(xiàn)出良好的泛化能力,而且能有效地編碼任務(wù)所需要的語法和語義信息4.3.1單詞分布式表示33單詞分布式表示(WordDistributedRepresentation)通過將單詞表示為定長低維稠密向量,在向量空間建構(gòu)單詞之間的語義關(guān)系。單詞分布式表示的目標是建立單詞嵌入矩陣W∈R|V|?d,其中矩陣的每一行對應(yīng)一個單詞,為單詞的向量表示,即詞向量。相比于獨熱表示,分布式表示可以編碼不同單詞之間的語義關(guān)聯(lián)。如上例中,如果采用獨熱表示,“計算機”與“電腦”以及“計算機”與“冰激凌”之間的相似度都相同。但是采用分布式表示可以使得“計算機”和“電腦”在大多數(shù)維度上相近,這樣“計算機”和“電腦”的向量之間的距離可以遠小于“計算機”和“冰激凌”之間的距離。4.3.1單詞分布式表示34單詞分布式表示的目標,即在向量空間建構(gòu)單詞之間的語義關(guān)聯(lián),使含義相近的單詞具有相似的向量表示。這自然地引出了兩個問題:(1)如何衡量單詞語義的相近;(2)如何衡量表示的相似。針對第一個問題,大部分單詞分布式表示方法遵從分布式假設(shè),即出現(xiàn)在相同上下文中的單詞往往具有相似的語義。在分布式假設(shè)的基礎(chǔ)上,這些方法側(cè)重于還原單詞之間的共現(xiàn)關(guān)系,即為頻繁出現(xiàn)在相同上下文中的詞語之間賦予較高的表示相似度。針對第二個問題,根據(jù)下游應(yīng)用場景的不同,可以根據(jù)表示向量的余弦相似度、L2范數(shù)距離等方式衡量表示向量的相似性。4.3.1單詞分布式表示--基于共現(xiàn)矩陣奇異值分解的詞向量模型35在分布式假設(shè)下,希望單詞之間的相似度體現(xiàn)為兩個詞出現(xiàn)在相同上下文的頻率??梢圆捎冕槍铂F(xiàn)矩陣(Co-occurrenceMatrix)的矩陣分解方法。隱式語義分析(LatentSemanticAnalysis,LSA)模型采用奇異值分解方法(SingularValueDecomposition,SVD),將單詞文檔共現(xiàn)矩陣(Term-DocumentCo-occurrenceMatrix)或單詞上下文共現(xiàn)矩陣(WindowbasedCo-OccurrenceMatrix)轉(zhuǎn)換為單詞向量表示。共現(xiàn)矩陣A∈R|V|×|V|,Aij
表示詞表V中下標為i和j的單詞出現(xiàn)在相同上下文中的次數(shù)。W∈R|V|*d
矩陣就是單詞的低維稠密表示4.3.1單詞分布式表示--基于上下文單詞預(yù)測詞向量模型36文獻[178]中提出了大幅度簡化以往的神經(jīng)網(wǎng)絡(luò)語言模型(NeuralProbabilisticLanguageModel,NPLM)的Word2vec
方法,去除了非線性隱藏層,使用自監(jiān)督的方式從大量無監(jiān)督文本訓(xùn)練詞表示模型構(gòu)建了兩個非常簡單的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu):連續(xù)詞袋模型(ContinuousBagOfWords,CBOW)和跳字模型(Skip-Gram,SG)CBOWSkip-Gram4.3.1單詞分布式表示--基于上下文單詞預(yù)測詞向量模型37Skip-Gram模型以負對數(shù)概率形式的損失函數(shù)作為優(yōu)化目標,形式化表示為:Skip-Gram包括U∈R|V|×d和V∈R|V|×d兩個詞嵌入矩陣,分別表示詞表中每個單詞作為上下文詞和中心詞時的詞向量。Skip-Gram模型通過上下文詞和中心詞向量的相似度估計上下文詞的出現(xiàn)概率,具體公式如下所示:在優(yōu)化上述目標函數(shù)后,Skip-Gram模型通常采用訓(xùn)練好的中心詞表示作為最終的詞表示4.3.1單詞分布式表示--基于上下文單詞預(yù)測詞向量模型38CBoW模型則假設(shè)文本中的詞可以通過其在文本中的上下文詞推導(dǎo)出來。CBoW模型也是以負對數(shù)概率形式的損失函數(shù)作為優(yōu)化目標:用U∈R|V|×d
表示中心詞詞向量矩陣,V∈R|V|×d
表示上下文詞向量vo
是平均的上下文詞向量,用于計算和中心詞的相似度;uc
是wc
用作中心詞的表示,ui是詞表中每個詞用作中心詞的表示。4.3.1單詞分布式表示--基于上下文單詞預(yù)測詞向量模型39在實際應(yīng)用中,由于詞表內(nèi)通常包含數(shù)萬甚至數(shù)十萬單詞,Skip-Gram和CBoW模型在基于Softmax計算上下文詞和中心詞的出現(xiàn)概率進行梯度更新時,會產(chǎn)生非常大規(guī)模的計算開銷。因此,通常使用負采樣或者層次Softmax的方法降低計算開銷。負采樣(NegativeSampling)將目標函數(shù)中全體詞表范圍的相似度計算修正為目標詞和K個負例的相似度計算,其中K是遠小于詞表大小的超參數(shù)。通過這種方式,使得訓(xùn)練的計算開銷與詞表大小無關(guān),而只與超參數(shù)K相關(guān)。4.3.1單詞分布式表示--基于上下文單詞預(yù)測詞向量模型40層次softmax將詞表組織成二叉樹結(jié)構(gòu),樹的每個葉子節(jié)點代表詞表中的一個詞語對于詞表中的詞w,用L(w)表示從樹的根節(jié)點到詞w對應(yīng)的葉子節(jié)點的路徑,其中包括從根節(jié)點到葉子節(jié)點的父節(jié)點的全部非終節(jié)點,但不包括葉子節(jié)點本身。4.3.1單詞分布式表示--全局向量(GloVe)模型41Sikp-Gram和CBOW模型根據(jù)局部信息進行學(xué)習(xí),而LSA模型則基于詞共現(xiàn)矩陣全局信息得到詞語表示,全局統(tǒng)計信息和局部信息都對詞表示學(xué)習(xí)提供有效信息。全局向量(GlobalVectorsforWordRepresentation,GloVe)模型則結(jié)合了上述模型的思想,從共現(xiàn)概率的角度分析并改進了Skip-Gram模型,即使用文本中局部的上下文信息,又對語料庫的全局共現(xiàn)統(tǒng)計數(shù)據(jù)加以利用。GloVe模型基于上下文窗口共現(xiàn)矩陣的統(tǒng)計,即對語料庫中特定中心詞-上下文詞對的出現(xiàn)次數(shù)的統(tǒng)計。在算法4.1所述的共現(xiàn)計數(shù)方法基礎(chǔ)上,GloVe模型中的共現(xiàn)矩陣進一步地考慮了中心詞和上下文詞之間的距離,使相距更近的中心詞-上下文詞對于共現(xiàn)次數(shù)起到更大的貢獻。使用d(wi,wj)表示單詞wi,wj之間的距離。GloVe模型中的共現(xiàn)矩陣將詞與詞之間的共現(xiàn)次數(shù)按共現(xiàn)距離的倒數(shù)進行加權(quán)由共現(xiàn)矩陣可以得到單詞wj
出現(xiàn)在單詞wi
上下文的共現(xiàn)概率為4.3.1單詞分布式表示--全局向量(GloVe)模型42GloVe模型的損失函數(shù)形式與上節(jié)介紹的Skip-Gram模型相似,同樣以還原共現(xiàn)頻率pij為目標,并在其基礎(chǔ)上進行改進
GloVe模型用平方損失代替Skip-Gram模型中的交叉熵損失,并使用變量代替原來的概率分布。
GloVe模型使用hij=h(Cij)作為每個損失項的權(quán)重,建模單詞wi
與wj
的相關(guān)度。最終損失函數(shù):4.3.1單詞分布式表示--基于字節(jié)對編碼的子詞表示模型43本章前幾節(jié)所介紹的詞表示模型都依賴預(yù)先確定的詞表V,在編碼輸入詞序列時,這些詞表示模型只能處理詞表中存在的詞。如果遇到不在詞表中的未登錄詞,模型無法為其生成對應(yīng)的表示,只能給予這些未登錄詞一個默認的通用表示。通常的處理方式是,詞表示模型會預(yù)先在詞表中加入一個默認的“[UNK]”(unknown)標識,表示未知詞一種直接的解決思路是為輸入建立字符級別表示,并通過字符向量的組合來獲得每個單詞的表示。然而,單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個字符,基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。4.3.1單詞分布式表示--基于字節(jié)對編碼的子詞表示模型44子詞表示模型提出了子詞(Subword)的概念,子詞表示模型會維護一個子詞詞表,其中既存在完整的單詞,也存在形如“c”,“re”,“ing”等單詞部分信息,稱為子詞。對于輸入的詞序列,子詞表示模型將每個詞拆分為詞表內(nèi)的子詞。例如,將單詞“reborn”拆分為“re”和“born”模型隨后查詢每個子詞的表示,將輸入重新組成為子詞表示序列。字節(jié)對編碼模型(BytePairEncoding,BPE)是一種常見的子詞表示模型。該模型所采用的詞表包含最常見的單詞以及高頻出現(xiàn)的子詞。在使用中,常見詞通常本身位于BPE詞表中,而罕見詞通常能被分解為若干個包含在BPE詞表中的子詞,從而大幅度降低未登錄詞的比例。4.3.1單詞分布式表示--基于字節(jié)對編碼的子詞表示模型45圖4.7
BPE模型中子詞詞表的計算過程4.3.1單詞分布式表示--基于字節(jié)對編碼的子詞表示模型46例如,對于單詞``lowest</w>'',首先通過匹配子詞``est</w>''將其切分為``low'',``est</w>''的序列,再通過匹配子詞``low'',確定其最終切分結(jié)果為``low'',``est</w>''的序列。通過這樣的過程,BPE盡量將詞序列中的詞切分成已知的子詞。對于使用了子詞表示模型的自然語言處理系統(tǒng),比如機器翻譯系統(tǒng),其輸出序列也是子詞序列。對于原始輸出,根據(jù)終結(jié)符</w>的位置確定每個單詞的范圍,合并范圍內(nèi)的子詞,將輸出重新組合為詞序列,作為最終的結(jié)果。4.3.1單詞分布式表示--單詞分布式表示的評價與應(yīng)用47單詞分布式表示模型的定量評估方法主要分為內(nèi)部評價(IntrinsicEvaluation)和外部評價(ExtrinsicEvaluation)兩種方法。內(nèi)部評價方法通?;谝粋€特殊設(shè)計的輔助任務(wù),這個輔助任務(wù)探測詞向量應(yīng)該具有的某種性質(zhì),如詞義相關(guān)性、類比性等,并最終返回一個分數(shù),來表示詞向量的好壞,從而幫助我們理解詞向量模型的特點。外部評方法通常基于一個實際應(yīng)用任務(wù),通過將詞向量作為該任務(wù)的輸入表示,比較不同詞向量模型在該任務(wù)上的性能,來選擇適合于該任務(wù)的詞向量模型。4.3.1單詞分布式表示--單詞分布式表示的評價與應(yīng)用48詞義相關(guān)性任務(wù)通過探索詞向量對詞義相關(guān)性的表達能力,來評價詞向量的質(zhì)量。對于單詞wi,wj及其詞向量vi,vj,簡單地使用余弦相似度作為詞義相似性的度量:通過直接將詞義相似度作為目標,可以定量衡量詞向量模型的性能。4.3.1單詞分布式表示--單詞分布式表示的評價與應(yīng)用49類比性任務(wù)回答:wa
之于wb,相當(dāng)于wc
之于?
在由(man,woman)詞對確定的類比關(guān)系下,可以為單詞son檢索類比詞daughter,它們滿足man之于woman,相當(dāng)于son之于daughter的類比關(guān)系。4.3.2句子分布式表示50句子分布式表示主要用于句子級別的任務(wù),如情感分析、文本推理、語義匹配等。對于句子級別表示的構(gòu)建,不但要考慮句子中所包含單詞的語義,也要考慮句子內(nèi)部詞之間的關(guān)系,即詞的共現(xiàn)信息和句子語義之間的聯(lián)系。還要考慮句子和句子之間隱含的語義相似性,以及其他的語義關(guān)系。這些性質(zhì)對于句子級別的下游應(yīng)用任務(wù)都很重要。4.3.2句子分布式表示--Skip-Thought句子表示模型51圖4.8Skip-Thought模型結(jié)構(gòu)圖Skip-Thought模型的目的主要是建模句子與句子之間的上下文語義關(guān)系,從而構(gòu)建句子表示模型。Skip-Thought模型借鑒了Skip-Gram模型的思想,認為可以基于一個句子預(yù)測出其上下文的句子,并以此作為監(jiān)督信號,學(xué)習(xí)句子之間的語義關(guān)系,得到句子表示模型。4.3.2句子分布式表示--Skip-Thought句子表示模型52在編碼器方面,Skip-Thought模型使用一個GRU網(wǎng)絡(luò)編碼輸入解碼器的結(jié)構(gòu)對GRU進行了部分修改,取編碼器在最后一個時刻的輸出hiN
作為輸入句子的表示ht,加入到網(wǎng)絡(luò)輸入中其中,修改的GRU單元接受三項輸入:上一時刻的輸出狀態(tài)ht-1;上一時刻輸出的單詞對應(yīng)的詞表示yt-1;輸入句子si的表示向量hi4.3.2句子分布式表示--Sent2Vec句子表示模型53Sent2Vec模型將句子中所有單詞和所有n元語法單元的表示向量均值作為句子的表示Sent2Vec的訓(xùn)練目標和CBoW類似,通過優(yōu)化中心詞和上下文的相似性量度對文本向量進行自監(jiān)督訓(xùn)練。具體而言,模型最大化中心詞表示和除去該詞后其余上下文表示的相似度。同時,Sent2Vec也采用了負采樣的技術(shù),以降低計算成本。采用下采樣(Subsampling)的方式使模型對單詞詞頻脫敏。對于每個形如(w,s)的訓(xùn)練樣本,以1?qp(w)的概率丟棄這個樣本4.3.3篇章分布式表示54在自然語言處理和信息檢索領(lǐng)域,部分任務(wù)會要求模型學(xué)習(xí)并表示文檔級別的特征,如文檔檢索、文檔去重、文檔級情感分析、主題識別等任務(wù)。相對一般的自然語言處理任務(wù),這類任務(wù)不需要模型精確地捕獲細粒度的詞句信息,但需要模型建模文檔的主題、包含的關(guān)鍵詞等信息。4.3.3篇章分布式表示--詞頻-逆文檔頻率篇章表示方法55詞頻-逆文檔頻率(TF-IDF)用來評估在特定文檔中詞的重要程度,其基本假設(shè)是文檔中詞重要程度隨其在文檔中出現(xiàn)的頻率增加,同時也會隨其在整個語料庫中出現(xiàn)的頻率而下降。如果一個詞在特定文檔的出現(xiàn)頻率高,則說明這個詞與該文檔的主題具有比較強的相關(guān)關(guān)系,因此該詞相對于該文檔的重要性應(yīng)該較高但是,如果一個詞語在整個文檔集合很多文檔上都出現(xiàn)了,那么說明該詞是常見詞語,其區(qū)分性不好,因此其重要程度應(yīng)該較低4.3.3篇章分布式表示--fastText篇章表示模型56fastText模型旨在高效訓(xùn)練文本表示模型,采用字符n-gram特征直接使用子詞向量的和作為對應(yīng)單詞的詞向量:4.3.3篇章分布式表示--fastText篇章表示模型57在將fastText句向量應(yīng)用于文本分類任務(wù)時,通常以對數(shù)概率作為優(yōu)化目標:fastText通常使用Skip-Gram模型的訓(xùn)練方式得到預(yù)訓(xùn)練的詞級別表示4.4.1基于目標詞上下文的詞義消歧方法4.4.2基于詞義釋義匹配的詞義消歧方法4.4.3基于詞義知識增強預(yù)訓(xùn)練的消歧方法4.4.4詞義消歧評價方法4.4.5詞義消歧語料庫語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents58詞義消歧4.4語義角色標注4.54.4詞義消歧59詞義消歧(WordSenseDisambiguation,WSD)是指確定一個多義詞在給定的上下文中的具體含義。根據(jù)本章第4.1.1節(jié)詞匯語義學(xué)相關(guān)介紹,我們可以知道語言中一詞多義現(xiàn)象十分普遍。例如:水分既可以表示物體內(nèi)所含的水,也可以表示某些情況中夾雜的不真實的成分,可以使用水分1和水分2分別表示兩個含義(1)葡萄糖液可用來供給水分。單詞義項:水分1(2)這個報導(dǎo)有些水分,需要核實。單詞義項:水分2詞義消歧任務(wù)核心就是根據(jù)詞語所處的句子或者篇章,確定該詞在當(dāng)前環(huán)境下的確切含義。4.4.1基于目標詞上下文的詞義消歧方法60對于待消歧的目標詞,詞義消歧方法通常采用有監(jiān)督分類方法,將詞語的每個詞義項作為候選詞義,通過估計待消歧詞義的概率分布從而完成目標詞的詞義消歧?;谀繕嗽~上下文的詞義消歧方法利用待消歧目標詞的上下文進行訓(xùn)練,預(yù)測上下文中目標詞屬于每個候選詞義的條件概率。自然語言處理中常用的統(tǒng)計機器學(xué)習(xí)方法和深度學(xué)習(xí)算法,均可用于構(gòu)建基于目標詞上下文的詞義消歧方法。4.4.1基于目標詞上下文的詞義消歧方法--基于樸素貝葉斯分類器的消歧方法61使用w表示待消歧的目標詞,c表示目標詞所處的句子,{si}Ni=1
為目標詞的候選詞義集合通過估計條件概率P(si|c)來預(yù)測目標詞w的詞義4.4.1基于目標詞上下文的詞義消歧方法--基于樸素貝葉斯分類器的消歧方法62P(si)和P(wk|si)可以通過訓(xùn)練語料利用最大似然估計得到:COUNT(wk,si)是訓(xùn)練語料中目標詞w以語義si在上下文中出現(xiàn)的次數(shù)COUNT(si)是訓(xùn)練語料中語義si出現(xiàn)的總次數(shù)COUNT(w)是訓(xùn)練語料中目標詞w出現(xiàn)的總次數(shù)4.4.1基于目標詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法63深度神經(jīng)網(wǎng)絡(luò)算法可以很好地對句子和短語的語義進行表示。因此,也可以利用目標詞上下文的分布式表示,建模目標詞上下文語義,并基于上下文向量表示構(gòu)建詞義消歧算法?;谏舷挛南蛄勘硎镜淖罱彿椒▽⒃~義消歧任務(wù)形式化為詞義表示和上下文表示的相似度學(xué)習(xí)問題。圖4.10基于上下文向量表示的最近鄰模型結(jié)構(gòu)圖4.4.1基于目標詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法64在詞義編碼部分,首先考慮在詞義消歧語料庫中存在標注的語義。對于每一個標注詞義,在訓(xùn)練集中抽取全體包含該詞義標注的樣本。隨后,通過預(yù)訓(xùn)練上下文表示模型,計算詞義對應(yīng)的目標詞在樣本上下文中的表示。最后,以目標詞表示的平均值作為詞義的表示。C(s)為全體標記詞義為s的樣本集合,Encoder代表使用預(yù)訓(xùn)練語言模型初始化的編碼器,如ELMo、BERT等。4.4.1基于目標詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法65針對未在詞義消歧語料庫中出現(xiàn)的詞義,可以采用方法,利用WordNet中標注的同義詞、上位詞和詞性標注(Lexname)等語義關(guān)系信息,尋找與目標詞義相似或相關(guān)的詞義,再以這些詞義表示的平均值作為該詞義的表示。以同義詞關(guān)系為例,對于待確定表示的詞義s,記S(s)為s的同義語義集合。若S(s)不是空集,s的語義表示為S(s)中同義語義的平均表示:4.4.1基于目標詞上下文的詞義消歧方法--基于上下文向量表示的消歧方法66當(dāng)同義語義缺失時,可依次使用相同上位的語義或相同詞性的語義作為近義語義集合,利用相似的方式計算目標語義的表示,具體計算公式如下所示:在構(gòu)建了所有詞義的向量表示后,對于每一條輸入的待進行詞義消歧的樣本,首先基于語言模型計算目標詞的上下文表示,在此基礎(chǔ)上,計算上下文表示與全體候選詞義表示的點積相似度,選擇相似度最大的語義做為分類結(jié)果,具體計算公式如下所示:4.4.3基于詞義釋義匹配的詞義消歧方法67以知網(wǎng)(HowNet)、WordNet等為代表的詞匯知識資源中不僅包含了詞義之間的關(guān)系,還包含了詞義的解釋信息。例如:WordNet3.1中對“table”給出了如下詞義解釋:
table1:asetofdataarrangedinrowsandcolumns
table2:apieceoffurniturehavingasmoothflattopthatisusuallysupportedbyoneormore
verticallegs
table3:apieceoffurniturewithtablewareforameallaidoutonit
table4:flattablelandwithsteepedges
table5:acompanyofpeopleassembledatatableforamealorgame
table6:foodormealsingeneral這些釋義與目標詞上下文之間存在著非常強的聯(lián)系。比如table1所對應(yīng)的“表格”含義,其上下文更多的對應(yīng)的設(shè)計、制作、數(shù)據(jù)等詞匯。而table2所對應(yīng)的“桌子”含義,其上下文更多的對應(yīng)的椅子、沙發(fā)等詞匯。因此,也可以將詞義消歧問題轉(zhuǎn)化為目標詞上下文和詞義釋義之間的語義匹配問題。4.4.2基于詞義釋義匹配的詞義消歧方法--基于特征式匹配的消歧方法68BEM模型通過分布式向量表示匹配方式學(xué)習(xí)目標詞上下文和詞義釋義的相關(guān)性。圖4.11BEM模型結(jié)構(gòu)圖主要包含上下文編碼器和詞義編碼器兩個組成部分。上下文編碼器Tc對輸入的目標詞及其上下文進行編碼,計算目標詞上下文的分布式表示。詞義編碼器Tg對輸入的詞義釋義文本進行編碼,將輸入詞義和上下文表示在同一表示空間內(nèi)。通過建立上下文語義表示和候選詞義表示的相似度計算模型,來完成詞義消歧任務(wù)。4.4.2基于詞義釋義匹配的詞義消歧方法--基于特征式匹配的消歧方法69BEM模型結(jié)構(gòu)的上下文編碼器Tc
和詞義編碼器Tg
都采用基于BERT的架構(gòu)。針對目標詞上下文表示的計算vw
是目標詞w在句子中的上下文表示候選詞義s的詞義釋義為gs=g0,g1,...,gm,在詞義釋義序列的首尾分別添加[CLS]及[SEP]標識,輸入詞義編碼器Tg,取[CLS]位置的輸出作為詞義的表示。對于上下文c中待消歧的目標詞w,以及候選詞義s,它們的相似度由如下公式計算得到:在模型訓(xùn)練過程中,對于待消歧的目標詞w,取該目標詞在句子中的表示與全體候選詞義的表示進行相似度計算,以相似度作為預(yù)測詞義的對數(shù)概率分布,優(yōu)化交叉熵損失函數(shù),具體計算公式如下:4.4.2基于詞義釋義匹配的詞義消歧方法--基于交互式匹配的消歧方法70GlossBERT使用交互式匹配方法,通過對預(yù)訓(xùn)練模型BERT進行微調(diào),實現(xiàn)上下文和詞義釋義的相似度計算。交互式匹配的優(yōu)點是只使用一個編碼器進行匹配任務(wù),大大減小了訓(xùn)練參數(shù)的規(guī)模。此外,交互式匹配可以充分利用詞粒度的信息,參考輸入的一對文本中的每個單詞,進行充分的比較,從而實現(xiàn)更好的學(xué)習(xí)效果。GlossBERT以BERT雙句分類的方式,將目標詞所處的上下文句子和詞義釋義組合為輸入,以是否匹配作為二分類標簽,構(gòu)造分類模型的微調(diào)樣本,通過這些樣本進行模型的微調(diào)。模型通過微調(diào)后,對于待消歧的目標詞和候選詞義,將目標詞上下文和每一個候選詞義組合成輸入,通過模型計算語義匹配的置信度,根據(jù)置信度選取預(yù)測詞義。4.4.2基于詞義釋義匹配的詞義消歧方法--基于交互式匹配的消歧方法71GlossBERT根據(jù)訓(xùn)練集中每個樣本的每個目標詞所構(gòu)造的分類樣本,使用BERT編碼層在[CLS]位置的輸出作為分類判據(jù)4.4.3基于詞義知識增強預(yù)訓(xùn)練的消歧方法72基于預(yù)訓(xùn)練語言模型的方法在詞義消歧任務(wù)中取得了不錯的結(jié)果,為了使得預(yù)訓(xùn)練語言模型更好地適應(yīng)詞義消歧任務(wù),可以通過設(shè)計詞義級別的預(yù)訓(xùn)練任務(wù),使得預(yù)訓(xùn)練模型融合知識庫中所包含詞義信息。然而,預(yù)訓(xùn)練模型需要大規(guī)模的有監(jiān)督數(shù)據(jù)才能對模型參數(shù)進行有效訓(xùn)練。但是,目前缺乏標注了詞義的大規(guī)模數(shù)據(jù)用于支持模型預(yù)訓(xùn)練。SenseBERT模型,針對缺失語義監(jiān)督數(shù)據(jù)問題,在BERT的預(yù)訓(xùn)練中添加了一個掩碼詞義預(yù)測任務(wù)作為輔助任務(wù)。SenseBERT利用WordNet所包含的超義(Supersense)信息作為弱監(jiān)督信號。WordNet將所有義項歸納為多個類別,這些類型稱之為超義。例如,針對名詞有26個超義,包括:BODY、LOCATION、PLANT等。4.4.3基于詞義知識增強預(yù)訓(xùn)練的消歧方法73圖4.13SenseBERT模型結(jié)構(gòu)圖在預(yù)訓(xùn)練任務(wù)方面,SenseBERT包括掩碼單詞預(yù)測和掩碼語義預(yù)測兩個任務(wù)。通過與詞嵌入、語義嵌入矩陣的比較,模型計算每一個掩碼位置的單詞預(yù)測分布和語義預(yù)測分布,并將其與實際標簽比對。4.4.4詞義消歧評價方法744.4.5詞義消歧語料庫75詞義消歧義項分類標注語料庫SemCor是基于WordNet詞義進行標注的語料庫。SemCor3.0版本包含352個文檔和22萬余條手動語義注釋,其原始語料從布朗(Brown)語料庫獲取,經(jīng)過篩選后,參考WordNet1.4的詞義清單進行詞義標記OMSTI(OneMillionSense-TaggedInstances)是自動標注的語料庫,也常用于詞義消歧系統(tǒng)的訓(xùn)練。OMSTI使用WordNet3.0的詞義進行注釋,它是通過在大型英漢平行語料庫(MultiUN語料庫)上使用基于對齊的詞義消歧方法自動構(gòu)建的。WSDEvaL是統(tǒng)一詞義消歧基準評測框架,將不同時期構(gòu)建的采用不同詞義注釋構(gòu)建的評測基準語料統(tǒng)一使用WordNet3.0詞義進行注釋。4.4.5詞義消歧語料庫76詞義消歧義項相同判斷標注語料庫WiC(WordinContext)數(shù)據(jù)集是一個由專家標注的詞義消歧數(shù)據(jù)集,每個樣本對同一個目標詞給出兩個包含該詞語的句子,并依據(jù)在兩個句子中目標詞的詞義是否相同,給出T或F的分類標簽。WiC-TSV(WordinContext-TargetSenseVerification)對WiC的語料篩選和任務(wù)形式進行了改進,形成了新的跨越多個領(lǐng)域的詞義消歧評測基準。WiC-TSV中的每個樣本僅包含一個句子,其中標出待消歧的目標詞。4.5.1基于成分句法樹的語義角色標注方法4.5.2基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標注4.5.3語義角色標注評價方法4.5.4語義角色標注語料庫語義學(xué)概述4.1語義表示4.2分布式表示4.3目錄Contents77詞義消歧4.4語義角色標注4.54.5語義角色標注78語義角色標注(SemanticRoleLabeling,SRL)是一種淺層語義分析技術(shù),目標是分析句子的謂詞-論元結(jié)構(gòu),揭示句子中概念范疇之間的語義關(guān)系。語義角色標注的主要語言學(xué)理論來源于題元理論(ThematicTheory)、格語法(CaseGrammar)以及配價理論(ValencyTheory)等句子語義理論等。題元理論認為句子以謂語為中心,謂語決定了句子的基本結(jié)構(gòu)。論元(Argument)是謂語所涉及的對象,擔(dān)任了施事、客體、受事、地點或命題等不同的題元角色。語義角色標注任務(wù)核心是識別句子中謂語的論元,并確定論元的題元角色。例如:[中國成飛公司]A0[正在]AM?TMP[制造]V[民用飛機]A1?!爸圃臁睘橹^詞(V),代表了一個事件的核心行為;“中國成飛公司”和“民用飛機”為動作的施事者(A0)和受事者(A1)4.5語義角色標注79語義角色標注算法雖然有很多類型,但是其基本基本流程都主要由論元識別和論元分類組成。基于句法分析的語義角色標注算法還需要先對句子進行句法分析。論元識別的目標是從句子識別所有由連續(xù)幾個單詞組成的論元。由于如果將句子中所有的連續(xù)單詞片段都作為論元候選,其數(shù)量會過于龐大,因此早期的方法在進行論元識別前,通常還會引入基于規(guī)則的候選論元過濾方法,利用句法分析結(jié)果構(gòu)造啟發(fā)式規(guī)則對候選項進行大幅度刪減論元分類則是對論元和謂詞之間的關(guān)系類型進行分類。論元識別和論元分類通常采用有監(jiān)督機器學(xué)習(xí)算法,將上述任務(wù)轉(zhuǎn)換為分類問題。兩個任務(wù)之間可以采用流水線結(jié)構(gòu),也可以采用聯(lián)合學(xué)習(xí)的方法。4.5.1基于句法樹的語義角色標注方法--基于成分句法樹的語義角色標注方法80句法結(jié)構(gòu)主要有成分結(jié)構(gòu)和依存結(jié)構(gòu)兩大類。因此,依賴句法結(jié)構(gòu)的語義角色標注算法可以進一步細分為:基于成分結(jié)構(gòu)的語義角色標注(Span-BasedSRL)和基于依存形式的語義角色標注(Dependency-BasedSRL)在基于成分結(jié)構(gòu)的語義角色標注中,模型基于句子的成分句法分析結(jié)果,對句中論元短語對應(yīng)的跨度進行語義成分標注。4.5.1基于句法樹的語義角色標注方法--基于成分句法樹的語義角色標注方法81從成分句法樹的謂詞節(jié)點開始,考察該節(jié)點的每個兄弟節(jié)點;如果兄弟節(jié)點和該節(jié)點在句法結(jié)構(gòu)上不是并列關(guān)系,則將兄弟節(jié)點加入候選論元集合;如果兄弟節(jié)點是介詞短語(PP),則將兄弟節(jié)點的全體子節(jié)點加入候選論元集合。依次對謂詞節(jié)點的父節(jié)點等每個祖先節(jié)點執(zhí)行上述過程,直至到達根節(jié)點為止。4.5.1基于句法樹的語義角色標注方法--基于成分句法樹的語義角色標注方法82在上述篩選過程后,訓(xùn)練分類模型從候選論元集合中識別真正的論元,并標注論元類型。在此過程中,通常需要為分類器構(gòu)造有效的特征,常用特征可以分為以下類別:謂詞及相關(guān)特征:謂詞,謂詞的語態(tài),或論元和謂詞出現(xiàn)的前后關(guān)系等。論元的詞特征:論元的中心詞及其詞性,以及頭尾單詞等。基于成分句法標注的特征:論元的成分類型,樹中論元到謂詞的路徑,成分的父親、兄弟節(jié)點類型等。在上述特征的基礎(chǔ)上,可以利用最大熵分類器、SVM、感知機等有監(jiān)督機器學(xué)習(xí)方法構(gòu)建語義角色標注算法。4.5.1基于句法樹的語義角色標注方法--基于依存關(guān)系樹的語義角色標注方法83基于依存的語義角色標注算法根據(jù)句子依存樹進行語義角色標注。4.5.1基于句法樹的語義角色標注方法--基于依存關(guān)系樹的語義角色標注方法84基于依存句法樹的語義角色標注方法將上節(jié)所述的候選論元篩選過程遷移到依存句法樹上。首先,從謂詞節(jié)點開始,將當(dāng)前節(jié)點的全體子節(jié)點加入候選論元集合;然后將當(dāng)前節(jié)點的父節(jié)點作為當(dāng)前節(jié)點,重復(fù)上述過程,逐次考察謂詞節(jié)點的祖先節(jié)點;至當(dāng)前節(jié)點作為句子的根節(jié)點為止。4.5.1基于句法樹的語義角色標注方法--基于依存關(guān)系樹的語義角色標注方法85針對后續(xù)的論元識別、論元分類階段,基于依存句法樹的語義角色標注方法將其建模為判斷謂詞和論元中心詞之間語義關(guān)系的任務(wù),并建立分類模型來解決。在此過程中常用的分類特征包括以下幾類:謂詞及相關(guān)特征:謂詞,謂詞的詞根、詞義、詞性、語態(tài),或論元和謂詞出現(xiàn)的前后關(guān)系等論元的詞特征:論元的中心詞及其詞性,以及頭尾單詞等基于成分句法標注的特征:樹中論元中心詞到謂詞的路徑,謂詞與其父節(jié)點的依存關(guān)系,以及其父節(jié)點的相關(guān)信息;謂詞與其子節(jié)點的依存關(guān)系;候選論元中心詞的子節(jié)點、兄弟節(jié)點相關(guān)信息等4.5.2基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標注86基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標注,可以用BIO標注方案表示論元標簽,從而可以直接利用通用的序列標注模型來解決也可以以跨度標注句子中的論元短語位置,采用基于跨度預(yù)測的方法。由于跨度預(yù)測模型顯式地建模了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒童高血壓控制體重是根本課件
- DB6103T 78-2025旱塬區(qū)冬油菜輕簡化栽培技術(shù)規(guī)范
- 產(chǎn)業(yè)合作發(fā)展合同
- 親子照看服務(wù)合同
- 中小學(xué)聯(lián)合辦學(xué)合同書版
- 云計算服務(wù)專用保密合同
- 臨時用工合同樣本及格式要求
- 個人資金借給公司使用的合同協(xié)議
- 個體商業(yè)合作合同范本官方版
- 個人借款抵押擔(dān)保合同樣本
- 《春酒》琦君完整版
- 北師大版(2024新版)七年級上冊數(shù)學(xué)第四章《基本平面圖形》測試卷(含答案解析)
- 湖南省邵陽市武岡市2024屆高三上學(xué)期期中考試地理含答案解析
- 2022年內(nèi)分泌醫(yī)療質(zhì)量控制評價體系與考核標準
- 春節(jié)后復(fù)工安全教育培訓(xùn)考試試題及答案
- 寄宿制學(xué)校工作總結(jié)
- 小學(xué)數(shù)學(xué)6年級應(yīng)用題100道附答案(完整版)
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫含答案
- JT-T 1495-2024 公路水運危險性較大工程專項施工方案編制審查規(guī)程
- JT-T-390-1999突起路標行業(yè)標準
- 2023年四川省成都市武侯區(qū)中考物理二診試卷(含答案)
評論
0/150
提交評論