知識(shí)圖譜:算法與實(shí)踐 課件 第6-10章 關(guān)系抽取- 知識(shí)問答與對(duì)話_第1頁
知識(shí)圖譜:算法與實(shí)踐 課件 第6-10章 關(guān)系抽取- 知識(shí)問答與對(duì)話_第2頁
知識(shí)圖譜:算法與實(shí)踐 課件 第6-10章 關(guān)系抽取- 知識(shí)問答與對(duì)話_第3頁
知識(shí)圖譜:算法與實(shí)踐 課件 第6-10章 關(guān)系抽取- 知識(shí)問答與對(duì)話_第4頁
知識(shí)圖譜:算法與實(shí)踐 課件 第6-10章 關(guān)系抽取- 知識(shí)問答與對(duì)話_第5頁
已閱讀5頁,還剩636頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第六章:關(guān)系抽取《知識(shí)圖譜》配套講義1提綱概述限定域關(guān)系抽取開放域關(guān)系抽取數(shù)據(jù)和評(píng)測(cè)總結(jié)2實(shí)體關(guān)系抽取的任務(wù)關(guān)系抽取是自動(dòng)識(shí)別由一對(duì)概念和聯(lián)系這對(duì)概念的關(guān)系構(gòu)成的相關(guān)三元組。比爾蓋茨是微軟的CEOCEO(比爾蓋茨,微軟) CMU坐落于匹茲堡Located-in(CMU,匹茲堡)多元組:MichaelJordan獲得1997/98賽季的MVPAward(MichaelJordan,1997/98賽季,MVP)3關(guān)系類別:ACE評(píng)測(cè)語料61種User-Owner-Inventor-Manufacture:Agent/artifact可以表示不同含義,在不同的實(shí)體類型組合里,分別表示PER和VEH之間的使用、擁有、發(fā)明、制作等不同關(guān)系。Citizen-Resident-Religion-Ethnicity:描述的是人的居住、生活、宗教、種族等關(guān)系4關(guān)系類別:TAC-KBP公司解散或者合約/協(xié)議解除5關(guān)系類別:SemEval關(guān)系比例Other280(31.43%)Cause-Effect156(17.51%)Product-Producer

114(12.79%)Entity-Origin102(11.45%)Instrument-Agency85(9.54%)Component-Whole

71(7.97%)Content-Container

57(6.40%)Entity-Destination13(1.46%)Member-Collection8(0.90%)Message-Topic5(0.56%)每種關(guān)系都是有序關(guān)系儀器代理6知識(shí)圖譜的關(guān)系類別真實(shí)環(huán)境中,實(shí)體類別和關(guān)系類別數(shù)目巨大。Freebase:4000多萬實(shí)體,上萬個(gè)屬性關(guān)系,24多億個(gè)事實(shí)三元組DBpeida:400多萬實(shí)體,48,293種屬性關(guān)系,10億個(gè)事實(shí)三元組NELL:519萬實(shí)體,306種關(guān)系,5億候選三元組KnowledgeVault:4500萬實(shí)體,4469種關(guān)系,2.7億三元組7關(guān)系抽取任務(wù)的類型關(guān)系抽取非結(jié)構(gòu)文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放域關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法半結(jié)構(gòu)化文本的關(guān)系抽取8關(guān)系抽取的難點(diǎn)自然語言的多樣性同一個(gè)關(guān)系可以有多種不同的表述例子“國籍”關(guān)系姚明是中國人。姚明是中國籍運(yùn)動(dòng)員。姚明出生并生活在中國。姚明的國籍是中國?!匀徽Z言的歧義性相同的表述在不同的語境下可以表示不同的關(guān)系例子:喬布斯離開了蘋果公司。被解雇了走開,比如下班回家了9提綱概述限定域關(guān)系抽取開放域關(guān)系抽取數(shù)據(jù)和評(píng)測(cè)總結(jié)10面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放域關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法11面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放域關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法12關(guān)系分類:任務(wù)任務(wù)給定一個(gè)句子以及句子中的兩個(gè)實(shí)體,判斷這兩個(gè)實(shí)體之間是什么關(guān)系。因?yàn)殛P(guān)系集合已經(jīng)預(yù)先定義好了,所以這個(gè)任務(wù)實(shí)質(zhì)上是一個(gè)分類任務(wù),因此叫做關(guān)系分類。2013年4月20日8時(shí)02分四川省雅安市[蘆山縣]e1

發(fā)生了7.0級(jí)[地震]e2震中

(e1,e2)汶川地震震中在汶川縣智利首都圣地亞哥發(fā)生了一場(chǎng)毀滅性的大地震唐山在一場(chǎng)沒有任何征兆的特大地震中夷成廢墟……訓(xùn)練關(guān)系分類器S:2013年4月20日8時(shí)02分四川省雅安市[蘆山縣]e1

發(fā)生了7.0級(jí)[地震]e2??測(cè)試震中震中(e1,e2)13關(guān)系分類:方法采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,將關(guān)系實(shí)例轉(zhuǎn)換成高維空間中的特征向量,在標(biāo)注語料庫上訓(xùn)練生成分類模型,然后再識(shí)別實(shí)體間關(guān)系。基于特征向量的方法最大熵模型(Kambhatla2004)和支持向量機(jī)(Zhaoetal.,2005;Zhouetal.,2005;Jiangetal.,2007)等基于核函數(shù)的方法淺層樹核(Zelenkoetal.,2003)、依存樹核(Culottaetal.,2004)、最短依存樹核(Bunescuetal.,2005)、卷積樹核(Zhangetal.,2006;Zhouetal.,2007)基于深度學(xué)習(xí)的方法遞歸神經(jīng)網(wǎng)絡(luò)(Socheretal.,2012)、基于矩陣空間的遞歸神經(jīng)網(wǎng)絡(luò)(Socheretal.,2012)、卷積神經(jīng)網(wǎng)絡(luò)(Zengetal.,2014)14關(guān)系分類:特征向量方法主要任務(wù):如何獲取各種有效的詞法、句法、語義等特征,并把它們有效地集成起來,從而產(chǎn)生描述實(shí)體語義關(guān)系的各種局部特征和簡單的全局特征。特征選取:從自由文本及其句法結(jié)構(gòu)中抽取出各種詞匯特征以及結(jié)構(gòu)化特征實(shí)體詞匯及其上下文特征實(shí)體類型及其組合特征(PER,LOC等)交疊特征(兩個(gè)實(shí)體或詞組塊是否在同一個(gè)名詞短語、動(dòng)詞短語或者介詞短語之中、兩個(gè)實(shí)體或者詞組塊之間單詞的個(gè)數(shù)等)句法樹特征(連接兩個(gè)實(shí)體的句法路徑)15關(guān)系分類:核函數(shù)方法

16關(guān)系分類:傳統(tǒng)方法存在的問題

17關(guān)系分類:神經(jīng)網(wǎng)絡(luò)方法主要任務(wù):如何設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu),從而捕捉更多的信息,進(jìn)而更準(zhǔn)確地完成關(guān)系的分類。網(wǎng)絡(luò)結(jié)構(gòu):不同的網(wǎng)絡(luò)結(jié)構(gòu)捕捉文本中不同的信息。卷積神經(jīng)網(wǎng)絡(luò)(CNN)建模局部特征循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)建模時(shí)間序列信息18關(guān)系分類:CNN基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系分類方法通過CNN學(xué)習(xí)文本語義特征不需要人工設(shè)計(jì)特征1、通過詞向量表示詞匯的語義特征2、通過CNN表示句子的語義特征ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING2014,BestPaperAward19關(guān)系分類:CNN利用詞向量表示詞匯級(jí)特征The[haft]e1ofthe[axe]e2ismadeofyewwood.ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING201420關(guān)系分類:CNN利用CNN表示句子級(jí)特征卷積詞向量位置向量Softmax分類器濾波器最大池化ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING201421關(guān)系分類:CNN利用CNN捕獲句子級(jí)特征詞的表示詞向量每個(gè)詞對(duì)應(yīng)一個(gè)向量位置向量

每個(gè)詞與兩個(gè)實(shí)體詞的相對(duì)位置

每個(gè)距離對(duì)應(yīng)一個(gè)向量“the”到實(shí)體“haft”的相對(duì)距離是2“the”到實(shí)體“axe”的相對(duì)距離是-1“the”的位置向量由2對(duì)應(yīng)向量與-1對(duì)應(yīng)向量拼接得到The[haft]e1ofthe[axe]e2ismadeofyewwood.-12ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING201422位置向量是隨機(jī)初始化的,位置向量詞表與文本向量的詞表是獨(dú)立的22關(guān)系分類:CNN實(shí)驗(yàn)數(shù)據(jù):SemEval實(shí)驗(yàn)結(jié)果#oftraininginstance#oftestinstance#ofrelationships8,0002,71719ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING201423關(guān)系分類:CNN實(shí)驗(yàn)結(jié)果#oftraininginstance#oftestinstance#ofrelationships8,0002,71719ZengD,LiuK,LaiS,etal.RelationClassificationviaConvolutionalDeepNeuralNetwork.COLING201424關(guān)系分類:LSTM(擴(kuò)展閱讀)動(dòng)機(jī):傳統(tǒng)方法依賴NLP工具,人工提取特征,造成錯(cuò)誤傳遞句子級(jí)語義信息對(duì)關(guān)系抽取任務(wù)至關(guān)重要CNN的方法難以建模句子中長距離的依賴關(guān)系句子中的不同位置的詞有不同程度的重要性ZhouP,ShiW,TianJ,etal.Attention-basedbidirectionallongshort-termmemorynetworksforrelationclassification.ACL201625關(guān)系分類:LSTM+Attention(擴(kuò)展閱讀)

ZhouP,ShiW,TianJ,etal.Attention-basedbidirectionallongshort-termmemorynetworksforrelationclassification.ACL201626關(guān)系分類:LSTM+Attention(擴(kuò)展閱讀)

Softmax分類得到關(guān)系類別ZhouP,ShiW,TianJ,etal.Attention-basedbidirectionallongshort-termmemorynetworksforrelationclassification.ACL201627關(guān)系分類:LSTM+Attention(擴(kuò)展閱讀)實(shí)驗(yàn)結(jié)果:ZhouP,ShiW,TianJ,etal.Attention-basedbidirectionallongshort-termmemorynetworksforrelationclassification.ACL201628關(guān)系分類:小節(jié)基于特征向量方法vs.基于核函數(shù)方法vs.基于神經(jīng)網(wǎng)絡(luò)方法基于特征向量方法基于核函數(shù)方法基于神經(jīng)網(wǎng)絡(luò)方法優(yōu)點(diǎn)

簡單實(shí)用計(jì)算速度較快能夠有效挖掘結(jié)構(gòu)化信息人工干預(yù)小,可擴(kuò)性好,適用于大規(guī)模數(shù)據(jù)環(huán)境缺點(diǎn)難以進(jìn)一步挖掘有效的平面特征,性能很難進(jìn)一步提高句法分析的錯(cuò)誤引入了噪聲,同時(shí)由于樹核的計(jì)算速度非常慢,很難開發(fā)實(shí)用系統(tǒng)

可解釋性差

訓(xùn)練時(shí)間長29面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法30實(shí)體關(guān)系聯(lián)合抽取:任務(wù)給定一個(gè)句子,需要識(shí)別句子中的實(shí)體以及實(shí)體之間的關(guān)系喬布斯創(chuàng)立了蘋果公司。創(chuàng)始人(喬布斯,蘋果公司)實(shí)體關(guān)系聯(lián)合抽取喬布斯創(chuàng)立了蘋果公司。創(chuàng)始人關(guān)系分類31實(shí)體關(guān)系聯(lián)合抽?。盒蛄袠?biāo)注方法

ZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL201732實(shí)體關(guān)系聯(lián)合抽?。盒蛄袠?biāo)注方法標(biāo)注方法嘗試了LSTM+CRFLSTM+LSTMLSTM+LSTM+biasZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL201733實(shí)體關(guān)系聯(lián)合抽取:序列標(biāo)注方法標(biāo)注方法嘗試了LSTM+CRFZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL2017CRF是一種判別式模型,既可以使用任意的復(fù)雜特征;又可以建模觀察序列和多個(gè)狀態(tài)的關(guān)系,即考慮了狀態(tài)之間的關(guān)系。34實(shí)體關(guān)系聯(lián)合抽?。盒蛄袠?biāo)注方法標(biāo)注方法嘗試了LSTM+LSTMZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL201735CRF做解碼善于捕捉近距離的標(biāo)簽依賴LSTM做解碼可以捕捉長距離的標(biāo)簽依賴35實(shí)體關(guān)系聯(lián)合抽?。盒蛄袠?biāo)注方法標(biāo)注方法嘗試了LSTM+LSTM+biasBiasweight損失因子:對(duì)other標(biāo)簽的重要程度進(jìn)行設(shè)置ZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL201736實(shí)體關(guān)系聯(lián)合抽取:序列標(biāo)注方法數(shù)據(jù)使用弱監(jiān)督的NYT數(shù)據(jù)集,看做監(jiān)督數(shù)據(jù)。訓(xùn)練集包括353k個(gè)三元組測(cè)試集包括3880個(gè)三元組總共24種關(guān)系實(shí)驗(yàn)結(jié)果ZhengS,WangF,BaoH,etal.JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.ACL201737面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法38多關(guān)系抽取:任務(wù)給定一個(gè)句子需要識(shí)別句子中的實(shí)體以及實(shí)體之間的關(guān)系句子中可能包含多個(gè)三元組時(shí),它們之間可能會(huì)發(fā)生重疊需要把所有的三元組都抽取出來傳統(tǒng)判別式模型,一個(gè)token只能輸出一個(gè)標(biāo)簽姚明是一名中國籍籃球運(yùn)動(dòng)員。職業(yè)(姚明,運(yùn)動(dòng)員)國籍(姚明,中國)39多關(guān)系抽取:三元組的重疊類型句子中包含多個(gè)三元組時(shí),它們之間可能會(huì)發(fā)生重疊ZengX,ZengD,HeS,etal.ExtractingRelationalFactsbyanEnd-to-EndNeuralModelwithCopyMechanism.ACL201840編碼器:將自然語言句子編碼成一個(gè)定長的語義向量(1)

解碼器:將該語義向量直接解碼成各個(gè)三元組(2)解碼一個(gè)三元組時(shí),解碼器首先預(yù)測(cè)其關(guān)系(3)例如capital,contain然后利用拷貝機(jī)制從源句子中拷貝第一個(gè)實(shí)體(4)例如Sudan最后從源句子中拷貝第二個(gè)實(shí)體(4)例如Khartoum解碼時(shí)采用了兩種不同的策略O(shè)neDecoder模型用一個(gè)解碼單元解碼所有的三元組MultiDecoder模型用多個(gè)解碼單元解碼,其中每個(gè)解碼單元解碼一個(gè)三元組多關(guān)系抽取:融合拷貝機(jī)制的端到端模型ZengX,ZengD,HeS,etal.ExtractingRelationalFactsbyanEnd-to-EndNeuralModelwithCopyMechanism.ACL2018生成模型41多關(guān)系抽?。喝诤峡截悪C(jī)制的端到端模型一個(gè)統(tǒng)一的模型應(yīng)對(duì)三種重疊類型

BiLSTMLSTM解碼出多個(gè)三元組關(guān)系分類實(shí)體1拷貝實(shí)體2拷貝42拓展閱讀:拷貝機(jī)制來源于對(duì)話生成GuACL2016。對(duì)話生成等序列到序列模型在生成句子時(shí):詞可以來源于詞表,還可以來源于上文的句子。因此,不僅需要計(jì)算詞表中每個(gè)詞的置信度,還計(jì)算源句子中每個(gè)詞的置信度。在多關(guān)系抽取任務(wù)中:不需要從詞表中生成詞,因此只需要計(jì)算源句子中每個(gè)詞的置信度,選擇置信度最高的詞作為被拷貝的詞。ZengX,ZengD,HeS,etal.ExtractingRelationalFactsbyanEnd-to-EndNeuralModelwithCopyMechanism.ACL2018GuJ,LuZ,LiH,etal.IncorporatingCopyingMechanisminSequence-to-SequenceLearning.ACL201643數(shù)據(jù):NYT數(shù)據(jù)集遠(yuǎn)程監(jiān)督數(shù)據(jù)集,但是把它看作有監(jiān)督數(shù)據(jù)來用WebNLG數(shù)據(jù)集為了自然語言生成任務(wù)(給定若干個(gè)三元組,生成與之相關(guān)的句子)而構(gòu)建是有監(jiān)督的數(shù)據(jù)集多關(guān)系抽?。喝诤峡截悪C(jī)制的端到端模型ZengX,ZengD,HeS,etal.ExtractingRelationalFactsbyanEnd-to-EndNeuralModelwithCopyMechanism.ACL201844實(shí)驗(yàn)多關(guān)系抽取:融合拷貝機(jī)制的端到端模型ZengX,ZengD,HeS,etal.ExtractingRelationalFactsbyanEnd-to-EndNeuralModelwithCopyMechanism.ACL201845面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取限定域關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法46遠(yuǎn)程監(jiān)督關(guān)系抽取關(guān)系分類/實(shí)體關(guān)系聯(lián)合抽取/多關(guān)系抽取都依賴有監(jiān)督數(shù)據(jù)有監(jiān)督數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力遠(yuǎn)程監(jiān)督關(guān)系抽取利用知識(shí)庫對(duì)文本自動(dòng)進(jìn)行回標(biāo)得到遠(yuǎn)程監(jiān)督數(shù)據(jù)集無需人工參與,獲取代價(jià)低,容易擴(kuò)展到大規(guī)模的場(chǎng)景

真實(shí)環(huán)境中,實(shí)體類別和關(guān)系類別數(shù)目巨大。Freebase:4000多萬實(shí)體,上萬個(gè)屬性關(guān)系,24多億個(gè)事實(shí)三元組DBpeida:400多萬實(shí)體,48,293種屬性關(guān)系,10億個(gè)事實(shí)三元組NELL:519萬實(shí)體,306種關(guān)系,5億候選三元組KnowledgeVault:4500萬實(shí)體,4469種關(guān)系,2.7億三元組47遠(yuǎn)程監(jiān)督關(guān)系抽取:起源任務(wù):在Wikipedia文本中抽取關(guān)系(屬性)信息難點(diǎn)無法確定關(guān)系類別無法獲取訓(xùn)練語料方法在Infobox抽取關(guān)系信息在Wikipedia條目文本中進(jìn)行回標(biāo),產(chǎn)生訓(xùn)練語料WuF,WeldDS.Autonomouslysemantifyingwikipedia.CIKM200748ItscountyseatisClearfield.Asof2005,thepopulationdensitywas28.2/km2.ClearfieldCountywascreatedon1804frompartsofHuntingdonandLycomingCountiesbutwasadministeredaspartofCentreCountyuntil1812.2,972

km2

(1,147

mi2)ofitislandand17

km2

(7

mi2)ofit(0.56%)iswater.遠(yuǎn)程監(jiān)督關(guān)系抽取:起源WuF,WeldDS.Autonomouslysemantifyingwikipedia.CIKM200749遠(yuǎn)程監(jiān)督關(guān)系抽取:DistantSupervision首次提出了DistantSupervision的思想DistantSupervision:使用知識(shí)庫中的關(guān)系,啟發(fā)式地標(biāo)注訓(xùn)練語料。假設(shè):每一個(gè)同時(shí)包含兩個(gè)實(shí)體的句子都會(huì)表述這兩個(gè)實(shí)體在知識(shí)庫中的對(duì)應(yīng)關(guān)系CEO_Of(喬布斯,蘋果公司)Founder_Of(喬布斯,蘋果公司)知識(shí)庫RelationInstanceLabelS1:喬布斯是蘋果公司的創(chuàng)始人之一Founder-of,CEO-ofS2:喬布斯回到了蘋果公司Founder-of,CEO-of標(biāo)注訓(xùn)練語料MintzM,BillsS,SnowR,etal.Distantsupervisionforrelationextractionwithoutlabeleddata.ACL2009多標(biāo)簽50簡單遠(yuǎn)程監(jiān)督方法:噪音問題噪音訓(xùn)練實(shí)例RelationInstanceLabelS1:喬布斯是蘋果公司的創(chuàng)始人之一Founder-ofS1:喬布斯是蘋果公司的創(chuàng)始人之一CEO-ofS2:喬布斯回到了蘋果公司Founder-ofS2:喬布斯回到了蘋果公司CEO-of√xxxMintzM,BillsS,SnowR,etal.Distantsupervisionforrelationextractionwithoutlabeleddata.ACL200951遠(yuǎn)程監(jiān)督關(guān)系分類:形式化描述

包52遠(yuǎn)程監(jiān)督關(guān)系分類:方法基于概率圖的方法將句袋和句子的標(biāo)簽視為隱變量,將關(guān)系抽取視為對(duì)隱變量賦值的過程Riedel2010,HoffmannACL2011,SurdeanuEMNLP2012基于矩陣補(bǔ)全的方法認(rèn)為遠(yuǎn)程監(jiān)督關(guān)系抽取中的特征、標(biāo)簽都有噪聲,因此觀測(cè)矩陣是由一個(gè)低秩矩陣加上一個(gè)噪聲矩陣所構(gòu)成FanACL2014,ZhangEMNLP2017基于深度學(xué)習(xí)的方法分段卷積神經(jīng)網(wǎng)絡(luò):DJZengEMNLP2015注意力機(jī)制:LinACL2016多示例多標(biāo)簽:JiangCOLING2016強(qiáng)化學(xué)習(xí):FengAAAI201853遠(yuǎn)程監(jiān)督關(guān)系分類:方法RiedelS,etal.ModelingRelationsandTheirMentionswithoutLabeledText.ECMLPKDD2010Hoffmannetal.Knowledge-BasedWeakSupervisionforInformationExtractionofOverlappingRelations.ACL2011Surdeanuetal.Multi-instanceMulti-labelLearningforRelationExtraction.EMNLP2012MiaoFanetal.DistantSupervisionforRelationExtractionwithMatrixCompletion.ACL2014QingZhang,HoufengWang.Noise-ClusteredDistantSupervisionforRelationExtraction:ANonparametricBayesianPerspective.EMNLP2017Jiangetal.RelationExtractionwithMulti-instanceMulti-labelConvolutionalNeuralNetworks.COLING2016Fengetal.ReinforcementLearningforRelationClassificationfromNoisyData.AAAI201854遠(yuǎn)程監(jiān)督關(guān)系分類:多示例學(xué)習(xí)起源最早由Dietterich等研究藥物分子活性預(yù)測(cè)問題時(shí)提出藥物分子的某些結(jié)構(gòu)可以旋轉(zhuǎn),使得同樣的分子有不同的結(jié)構(gòu)在這些不同結(jié)構(gòu)中,只有少量結(jié)構(gòu)能夠產(chǎn)生治療效果Dietterich等把一個(gè)藥物分子抽象成一個(gè)包藥物分子的各個(gè)結(jié)構(gòu)視為包中的示例對(duì)具有藥物活性的包(也就是一個(gè)藥物分子)賦予一個(gè)標(biāo)簽,但是包中的每個(gè)示例并沒有標(biāo)簽(二分類)知識(shí)圖譜構(gòu)建時(shí),具有類似的問題不需要確定包括兩個(gè)實(shí)體的每個(gè)句子具有哪種關(guān)系只需要確定兩個(gè)實(shí)體具有哪種關(guān)系就可以了ZengD,LiuK,ChenY,etal.Distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks.EMNLP2015DietterichT,etal.Solvingthemultipleinstanceproblemwithaxis-parallelrectangles.ArtificialIntelligence.199755遠(yuǎn)程監(jiān)督關(guān)系分類:多示例學(xué)習(xí)多示例學(xué)習(xí)的目的:在不知道包中每個(gè)示例標(biāo)簽的情況下,根據(jù)訓(xùn)練集給定的包,通過學(xué)習(xí)到的模型來預(yù)測(cè)包的標(biāo)簽。56基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽動(dòng)機(jī)遠(yuǎn)程監(jiān)督數(shù)據(jù)中存在噪音傳統(tǒng)方法依賴NLP工具來提取詞法、句法等特征,存在錯(cuò)誤累積的問題方法將遠(yuǎn)程監(jiān)督關(guān)系抽取看作多示例問題認(rèn)為一個(gè)包只有一個(gè)標(biāo)簽,簡化問題只考慮一個(gè)句子信息來預(yù)測(cè)整個(gè)包的標(biāo)簽——把概率最大的那個(gè)句子的關(guān)系作為預(yù)測(cè)的包的關(guān)系使用分段卷積神經(jīng)網(wǎng)絡(luò),擺脫對(duì)NLP工具的依賴PiecewiseConvolutionalNeuralNetworks,PCNN利用分段池化保留比最大池化更多的信息ZengD,LiuK,ChenY,etal.Distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks.EMNLP201557分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)基于兩個(gè)實(shí)體位置,利用分段卷積神經(jīng)網(wǎng)絡(luò)表示每個(gè)句子用softmax分類器對(duì)每個(gè)句子進(jìn)行分類把概率最大的那個(gè)句子的關(guān)系作為預(yù)測(cè)的包的關(guān)系訓(xùn)練時(shí)只使用該句子基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽CNN:對(duì)一個(gè)句子最大池化,PCNN:對(duì)一個(gè)句子分三段最大池化3個(gè)濾波器分段最大池化58分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)方法詞的向量表示詞向量位置向量每個(gè)相對(duì)位置對(duì)應(yīng)一個(gè)向量ZengEMNLP2015基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽ZengD,LiuK,ChenY,etal.Distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks.EMNLP201559分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)方法分段池化根據(jù)兩個(gè)實(shí)體的位置,將卷積濾波器的輸出分成三段每一段分別做最大池化基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽ZengD,LiuK,ChenY,etal.Distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks.EMNLP201560分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)數(shù)據(jù)集NYT實(shí)驗(yàn)基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽ZengD,LiuK,ChenY,etal.Distantsupervisionforrelationextractionviapiecewiseconvolutionalneuralnetworks.EMNLP201561動(dòng)機(jī)利用注意力機(jī)制來減輕噪音的影響基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽:注意力機(jī)制(擴(kuò)展閱讀)LinY,ShenS,LiuZ,etal.Neuralrelationextractionwithselectiveattentionoverinstances.ACL2016曾道建的工作局限:只考慮一個(gè)句子信息來預(yù)測(cè)整個(gè)包的標(biāo)簽,忽略了很多其他句子的有用信息。林衍凱的工作:利用關(guān)系向量對(duì)每個(gè)句子進(jìn)行查詢,通過attention為包中的每個(gè)句子賦予權(quán)重,進(jìn)而聯(lián)合利用所有的句子信息去預(yù)測(cè)包的標(biāo)簽。62方法用CNN對(duì)包中的每個(gè)句子進(jìn)行表示計(jì)算每個(gè)句子的注意力權(quán)重包的表示等于各個(gè)句子表示加權(quán)之和對(duì)包的表示進(jìn)行分類基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽:注意力機(jī)制(擴(kuò)展閱讀)LinY,ShenS,LiuZ,etal.Neuralrelationextractionwithselectiveattentionoverinstances.ACL201663實(shí)驗(yàn)結(jié)果基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例單標(biāo)簽:注意力機(jī)制(擴(kuò)展閱讀)LinY,ShenS,LiuZ,etal.Neuralrelationextractionwithselectiveattentionoverinstances.ACL201664基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例多標(biāo)簽(擴(kuò)展閱讀)動(dòng)機(jī)DJZeng2015的方法認(rèn)為一個(gè)包只有一個(gè)關(guān)系。實(shí)際上,NYT數(shù)據(jù)集中約18.3%的包有多個(gè)關(guān)系。兩個(gè)實(shí)體之間的關(guān)系可能是顯式的,也可能是非顯式地通過包中多個(gè)句子表達(dá)。所以,需要考慮跨句子的信息。例如:包中任何一句話都不能抽取出給定的三元組,但是綜合考慮多句話可以推斷出給定的三元組。曼谷是某個(gè)國家的首都曼谷是泰國的城市曼谷是泰國的首都JiangX,WangQ,LiP,etal.Relationextractionwithmulti-instancemulti-labelconvolutionalneuralnetworks.COLING201665方法跨句子最大池化來捕獲跨句子的信息基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例多標(biāo)簽(擴(kuò)展閱讀)句子級(jí)CNNJiangX,WangQ,LiP,etal.Relationextractionwithmulti-instancemulti-labelconvolutionalneuralnetworks.COLING201666

基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例多標(biāo)簽(擴(kuò)展閱讀)JiangX,WangQ,LiP,etal.Relationextractionwithmulti-instancemulti-labelconvolutionalneuralnetworks.COLING201667實(shí)驗(yàn)基于多示例學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系分類

多示例多標(biāo)簽(擴(kuò)展閱讀)JiangX,WangQ,LiP,etal.Relationextractionwithmulti-instancemulti-labelconvolutionalneuralnetworks.COLING201668提綱概述限定域關(guān)系抽取開放域關(guān)系抽取數(shù)據(jù)和評(píng)測(cè)總結(jié)69面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取預(yù)定義關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法70開放式關(guān)系抽取通過識(shí)別表達(dá)語義關(guān)系的短語來抽取實(shí)體之間的關(guān)系(華為,總部位于,深圳),(華為,總部設(shè)置于,深圳),(華為,將其總部建于,深圳)同時(shí)使用句法和統(tǒng)計(jì)數(shù)據(jù)來過濾抽取出來的三元組關(guān)系短語應(yīng)當(dāng)是一個(gè)以動(dòng)詞為核心的短語關(guān)系短語應(yīng)當(dāng)匹配多個(gè)不同實(shí)體對(duì)優(yōu)點(diǎn):無需預(yù)先定義關(guān)系類別缺點(diǎn):語義沒有歸一化,同一關(guān)系有不同表示關(guān)系短語的句法結(jié)構(gòu)約束71開放式關(guān)系抽取傳統(tǒng)方法華盛頓大學(xué)的人工智能研究組最早提出開放式信息抽取并做了大量代表性工作TextRunnerKylinWOEReVerb72開放式關(guān)系抽取TextRunner用戶輸入特定的謂詞和論元利用搜索引擎返回與用戶輸入相關(guān)的句子用TextRunner抽取出謂詞論元三元組EtzioniO,BankoM,SoderlandS,etal.Openinformationextractionfromtheweb.IJCAI200773開放式關(guān)系抽取(擴(kuò)展閱讀)TextRunner包括三個(gè)模塊語料的自動(dòng)生成大規(guī)模關(guān)系三元組的抽取關(guān)系三元組可信度計(jì)算EtzioniO,BankoM,SoderlandS,etal.Openinformationextractionfromtheweb.IJCAI200774開放式關(guān)系抽?。〝U(kuò)展閱讀)TextRunner語料的自動(dòng)生成通過依存句法分析結(jié)合啟發(fā)式規(guī)則自動(dòng)生成語料(表達(dá)語義關(guān)系vs不表達(dá)語義關(guān)系)規(guī)則:實(shí)體不能是代詞兩個(gè)實(shí)體必須在同一個(gè)句子中兩個(gè)實(shí)體的路徑長度不能大于指定值關(guān)系指示詞是兩個(gè)實(shí)體之間依存路徑上的動(dòng)詞或動(dòng)詞短語關(guān)系分類器訓(xùn)練(是否表達(dá)語義關(guān)系)樸素貝葉斯分類器所用的特征:關(guān)系指示詞的詞性關(guān)系指示詞的長度實(shí)體的類型左實(shí)體左邊詞語的詞性右實(shí)體右邊詞語的詞性EtzioniO,BankoM,SoderlandS,etal.Openinformationextractionfromtheweb.IJCAI200775開放式關(guān)系抽?。〝U(kuò)展閱讀)TextRunner大規(guī)模關(guān)系三元組的抽取利用上一步訓(xùn)練好的關(guān)系抽取器,在大規(guī)模的網(wǎng)絡(luò)文本上進(jìn)行關(guān)系三元組的抽取,并將其存儲(chǔ)起來關(guān)系三元組可信度計(jì)算將相似的三元組合并根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的冗余性,計(jì)算合并后三元組在網(wǎng)絡(luò)文本中出現(xiàn)的次數(shù)可信度與其出現(xiàn)次數(shù)相關(guān)EtzioniO,BankoM,SoderlandS,etal.Openinformationextractionfromtheweb.IJCAI200776開放式關(guān)系抽取(擴(kuò)展閱讀)Kylin根據(jù)維基百科頁面信息框中包含的條目屬性及屬性值回標(biāo)產(chǎn)生訓(xùn)練數(shù)據(jù)根據(jù)信息框中的屬性名自動(dòng)確定需要抽取的屬性不同的屬性訓(xùn)練不同的CRF模型抽取屬性值WOE同樣是利用維基百科信息框回標(biāo)數(shù)據(jù)通過規(guī)則挑選含有實(shí)體關(guān)系的高質(zhì)量句子利用依存句法分析樹以及詞性標(biāo)注這樣的淺層特征訓(xùn)練兩個(gè)分類器,作為兩個(gè)實(shí)體關(guān)系抽取器對(duì)網(wǎng)絡(luò)文本的句子做淺層句法處理后,同抽取器獲得的模板進(jìn)行對(duì)比,來判斷實(shí)體關(guān)系三元組的可靠性WeldDS,HoffmannR,WuF.Usingwikipediatobootstrapopeninformationextraction.2019WuF,WeldDS.OpeninformationextractionusingWikipedia.ACL201077開放式關(guān)系抽?。〝U(kuò)展閱讀)Reverb總結(jié)了Kylin和WOE中的普遍錯(cuò)誤三元組識(shí)別錯(cuò)誤、無信息三元組抽取提出了基于句法和詞匯約束的實(shí)體關(guān)系識(shí)別方法FaderA,SoderlandS,EtzioniO.Identifyingrelationsforopeninformationextraction.EMNLP201178面向非結(jié)構(gòu)化文本的關(guān)系抽取面向非結(jié)構(gòu)化文本的關(guān)系抽取預(yù)定義關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法79開放式關(guān)系抽?。荷疃葘W(xué)習(xí)方法

(擴(kuò)展閱讀)加入拷貝機(jī)制的序列到序列模型從源句子中拷貝句子片段作為抽取出的三元組CuiACL2018SunWSDM2018CuiL,WeiF,ZhouM.NeuralOpenInformationExtraction.ACL2018SunM,etal.Logician:Aunifiedend-to-endneuralapproachforopen-domaininformationextraction.WSDM201880提綱概述限定域關(guān)系抽取開放域關(guān)系抽取數(shù)據(jù)和評(píng)測(cè)總結(jié)81關(guān)系分類數(shù)據(jù)評(píng)測(cè)語料ACEKBPSemEvalNYTWebNLG82關(guān)系分類數(shù)據(jù):ACEAutomaticContentExtraction,ACE是美國國家標(biāo)準(zhǔn)技術(shù)研究所組織的關(guān)于信息抽取研究的會(huì)議包括實(shí)體檢測(cè)和識(shí)別關(guān)系檢測(cè)和識(shí)別事件抽取由賓夕法尼亞大學(xué)的語言數(shù)據(jù)組織標(biāo)注2008年之后,ACE評(píng)測(cè)并入了TAC評(píng)測(cè)83ACE:預(yù)定義關(guān)系類別評(píng)測(cè)語料84關(guān)系分類數(shù)據(jù):TAC-KBPKnowledgeBasePopulation,KBP是美國國家標(biāo)準(zhǔn)技術(shù)研究所主辦的文本分析會(huì)議(TAC)發(fā)布的一個(gè)任務(wù)主要研究從自然語言文本中抽取信息,并且鏈接到現(xiàn)有知識(shí)庫的相關(guān)技術(shù)85TAC-KBP:預(yù)定義關(guān)系類別86關(guān)系分類數(shù)據(jù):SemEval關(guān)于語義評(píng)價(jià)的國際研討會(huì)1998年舉辦至今1998年-2010年每三年舉辦一次2010年-2012年每兩年舉辦一次之后每年舉辦一次包含多個(gè)子任務(wù)2019年的子任務(wù)包括框架語義和語義解析觀點(diǎn)、情感和臟話檢測(cè)事實(shí)與虛構(gòu)信息抽取和問答科學(xué)應(yīng)用中的自然語言處理87關(guān)系分類數(shù)據(jù):SemEvalSemEval2010年的信息抽取任務(wù)數(shù)據(jù)集應(yīng)用最廣泛信息抽取任務(wù)是當(dāng)年的第八個(gè)任務(wù),故稱為SemEval-2010任務(wù)8包含了9種有序關(guān)系和一個(gè)“其它”關(guān)系共10717個(gè)樣本訓(xùn)練集8000個(gè)樣本測(cè)試集2717個(gè)樣本88SemEval-2010Task8:預(yù)定義關(guān)系類別關(guān)系比例Other280(31.43%)Cause-Effect156(17.51%)Product-Producer

114(12.79%)Entity-Origin102(11.45%)Instrument-Agency85(9.54%)Component-Whole

71(7.97%)Content-Container

57(6.40%)Entity-Destination13(1.46%)Member-Collection8(0.90%)Message-Topic5(0.56%)每種關(guān)系都是有序關(guān)系89關(guān)系分類數(shù)據(jù):NYT選擇了Freebase中的四大類關(guān)系回標(biāo)紐約時(shí)報(bào)People,Business,Person,Location訓(xùn)練集與測(cè)試集紐約時(shí)報(bào)語料中2005-2006年的語料回標(biāo)為訓(xùn)練集2007年的語料回標(biāo)為測(cè)試集數(shù)據(jù)構(gòu)建用斯坦福命名實(shí)體識(shí)別工具識(shí)別句子中的實(shí)體提及用Freebase三元組中的實(shí)體名稱與實(shí)體提及進(jìn)行字符串匹配將三元組中兩個(gè)實(shí)體同時(shí)出現(xiàn)的句子收集在一起構(gòu)成包90關(guān)系分類數(shù)據(jù):WebNLG為了自然語言生成任務(wù)而構(gòu)建使用了DBPedia中的三元組數(shù)據(jù)構(gòu)建三元組選擇模塊用于從Dbpedia中選擇多樣且相關(guān)的三元組眾包模塊要求標(biāo)注者編寫的句子準(zhǔn)確地包含了給定三元組的內(nèi)容包括六個(gè)類別宇航員、建筑、紀(jì)念碑、大學(xué)、運(yùn)動(dòng)隊(duì)、著作GardentC,ShimorinaA,NarayanS,etal.Creatingtrainingcorporafornlgmicro-planning.ACL201791知識(shí)抽取工具包CogIE任務(wù):從非結(jié)構(gòu)化文本中抽取出實(shí)體、關(guān)系、事件及其語義框架等結(jié)構(gòu)化信息,并將抽取結(jié)果鏈接到CogNet功能:1)實(shí)現(xiàn)命名實(shí)體識(shí)別、細(xì)粒度實(shí)體分類、實(shí)體鏈接、關(guān)系抽取、事件抽取和框架語義解析等信息抽取功能;2)采用應(yīng)用-模塊-代碼三層架構(gòu)設(shè)計(jì)工具包,為用戶提供多種使用方式;3)將抽取結(jié)果對(duì)齊到CogNet,

Wikidata,

FrameNet等知識(shí)圖譜CogIE:AnInformationExtractionToolkitforBridgingTextsandCogNet.ACL2021Demo系統(tǒng)架構(gòu)支撐CogNet的構(gòu)建與更新訪問地址:

http://cognet.top/cogie/92提綱概述限定域關(guān)系抽取開放域關(guān)系抽取數(shù)據(jù)和評(píng)測(cè)總結(jié)93總結(jié)關(guān)系抽取非結(jié)構(gòu)文本的關(guān)系抽取預(yù)定義關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取開放式關(guān)系抽取傳統(tǒng)方法深度學(xué)習(xí)方法半結(jié)構(gòu)化文本的關(guān)系抽取94總結(jié)預(yù)定義關(guān)系抽取關(guān)系分類實(shí)體關(guān)系聯(lián)合抽取多關(guān)系抽取遠(yuǎn)程監(jiān)督關(guān)系抽取給定條件句子、實(shí)體對(duì)句子句子包、實(shí)體對(duì)目標(biāo)實(shí)體間的關(guān)系兩個(gè)實(shí)體和他們之間的關(guān)系(一個(gè)三元組)多個(gè)三元組包的關(guān)系95第七章:事件抽取《知識(shí)圖譜》配套講義96目錄概述限定類別事件抽取開放域事件抽取事件關(guān)系抽取多模態(tài)事件知識(shí)抽取97背景事件抽取是信息抽取中的關(guān)鍵任務(wù)。事件知識(shí)是一種非常重要的知識(shí)形式,是行業(yè)智能應(yīng)用的重要基礎(chǔ)?,F(xiàn)有知識(shí)圖譜主要以實(shí)體為核心,邊是實(shí)體間的關(guān)系,缺少事件知識(shí)。

98背景事件抽取是信息抽取中的難點(diǎn)問題

例:1992年10月3日,奧巴馬與米歇爾在三一聯(lián)合基督教堂結(jié)婚。事件抽取依賴實(shí)體抽取和關(guān)系抽取相較于實(shí)體抽取和關(guān)系抽取,事件抽取難度更大實(shí)體抽取:1992年10月3日,奧巴馬,米歇爾,三一聯(lián)合基督教堂關(guān)系抽?。悍蚱揸P(guān)系:奧巴馬,米歇爾奧巴馬米歇爾三一聯(lián)合基督教堂1992年10月3日結(jié)婚事件抽?。菏录愋停航Y(jié)婚事件,配偶:奧巴馬,配偶:米歇爾時(shí)間:1992年10月3日,地點(diǎn):三一聯(lián)合基督教堂

99信息抽取中對(duì)事件的定義事件是發(fā)生在某個(gè)特定的時(shí)間點(diǎn)或時(shí)間段、某個(gè)特定的地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變。事件類型:不同的動(dòng)作或者狀態(tài)的改變代表不同類型的事件事件元素:同一個(gè)類型的事件中不同的時(shí)間、不同的地點(diǎn)、不同的元素代表了不同的事件實(shí)例

100事件抽取任務(wù)從自然語言文本中抽取出用戶感興趣的事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來,如什么人,什么時(shí)間,在什么地方,做了什么事。TriggerDetection(33+1)類的Classifier1ArgumentClassification(35+1)類的Classifier2AttributesClassification判斷事件的四類屬性(Polarity/Tense/Genericity/Modality)3ReportabilityClassification判斷事件是否需要上報(bào)4Polarity:Positive/NegativeTense:past/future/presentGenericity:Generic/SpecificModality:Believed/Hypothetical/CommandedandRequested/Threatened/ProposedandDiscussed/Desired/Promised/Otherwiseunclearconstructions事件類型判別事件元素判別101事件抽取的任務(wù)事件觸發(fā)詞結(jié)婚(a“Life/Marry”event)事件元素角色=配偶奧巴馬角色=配偶米歇爾角色=時(shí)間1992年10月3日角色=地點(diǎn)三一聯(lián)合基督教堂相關(guān)術(shù)語事件描述(Eventmention),事件觸發(fā)詞(EventTrigger),事件元素(Eventargument),元素角色(Argumentrole)

例:1992年10月3日,奧巴馬與米歇爾在三一聯(lián)合基督教堂結(jié)婚。102事件抽取評(píng)測(cè)及語料MUCACE(KBP)TDT全稱MessageUnderstandingConferenceAutomaticContentExtractionTopicDetectionandTracking舉辦方DARPANISTDARPA時(shí)間1987-1997ACE:2000-2008KBP:2014-至今1998-2004評(píng)測(cè)內(nèi)容抽取指定類別事件的信息,包括參與這些事件的各個(gè)實(shí)體、屬性和關(guān)系。例如:MUC-2是從海軍軍事情報(bào)中抽取事件填入預(yù)定義模板中,共10個(gè)槽。從指定的源語言數(shù)據(jù)中發(fā)現(xiàn)指定類型的事件,并且識(shí)別出與事件相關(guān)的信息填入預(yù)設(shè)的事件模板中。ACE中共計(jì)8大類33個(gè)小類的事件。將文本切割為不同的新聞報(bào)道,監(jiān)控其中新事件的報(bào)道,并且將同一話題下的分散的報(bào)道按照某種結(jié)構(gòu)有效組織起來。TDT-3:240個(gè)topic103ACE評(píng)測(cè)數(shù)據(jù)變化情況104ACE事件類型:示例105ACE事件元素角色:示例106事件抽取研究的維度事件類別是否預(yù)定義限定類別事件抽取開放式事件抽取抽取的方法基于模式匹配的事件抽取方法基于機(jī)器學(xué)習(xí)的事件抽取方法文本粒度句子級(jí)事件抽取篇章級(jí)事件抽取文本類型新聞、微博、論壇領(lǐng)域、實(shí)時(shí)、多媒體….107目錄概述限定類別事件抽取開放域事件抽取事件關(guān)系抽取多模態(tài)事件知識(shí)抽取108基于機(jī)器學(xué)習(xí)的方法基于神經(jīng)網(wǎng)絡(luò)的方法:主要問題:如何設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu),從而捕捉更多的信息,進(jìn)而更準(zhǔn)確地進(jìn)行事件抽取。網(wǎng)絡(luò)結(jié)構(gòu):不同的網(wǎng)絡(luò)結(jié)構(gòu)捕捉文本中不同的信息卷積神經(jīng)網(wǎng)絡(luò)(CNN):(Chenet

al.2015,Nguyenetal.2015,Chenetal.2017)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):(Chenel.2018,Fengetal.2016,Nguyenetal.2016)多層感知機(jī)(MLN):(Liuetal.2016,Liuetal.2017)YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017Nguyen,etal."Eventdetectionanddomainadaptationwithconvolutionalneuralnetworks".ACL2015YuboChen,etal."CollectiveEventDetectionviaaHierarchicalandBiasTaggingNetworkswithGatedMulti-levelAttentionMechanisms".EMNLP2018XiaochengFeng,etal."Alanguage-independentneuralnetworkforeventdetection".ACL2016ShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016ShulinLiu,etal."ExploitingArgumentInformationtoImproveEventDetectionviaSupervisedAttentionMechanisms".ACL2017109任務(wù):Trigger識(shí)別(事件分類)+Argument識(shí)別(要素填充)動(dòng)機(jī):傳統(tǒng)方法主要提取兩類特征:詞匯特征和句子特征詞匯特征:過于依賴人工;是一種獨(dú)熱表示,缺乏語義

S1:ObamabeatsMcCain.(ElectEvent)S2:Tysonbeatshisopponent.(AttackEvent)Beat有兩種語義,觸發(fā)不同的事件。如果知道Obama和Mccain是總統(tǒng),Tyson是拳擊選手,這些信息可以幫助我們更好地判別beat的類型?;趧?dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)試圖通過詞向量捕捉這種語義信息。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015110動(dòng)機(jī)傳統(tǒng)方法主要提取兩類特征:詞匯特征和句子級(jí)特征

句子特征:用到復(fù)雜的NLP工具,引起錯(cuò)誤傳遞

nsubj->(cameramanplaystheVictimroleindieevent)?????->(cameramanplaystheTarget

roleinAttackevent)YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015該句蘊(yùn)含兩個(gè)事件:Die事件/Attack事件。傳統(tǒng)方法可以找到cameraman在die事件中扮演victim角色,依據(jù)是在cameraman和die之間存在一個(gè)Nsubj關(guān)系;但是很難判斷cameraman在attack事件中充當(dāng)target角色,原因是沒有它們之間沒有直接的句法關(guān)系連接?;趧?dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)111方法:將事件抽取看待成兩個(gè)階段的多分類問題觸發(fā)詞分類:根據(jù)句中的事件觸發(fā)詞進(jìn)行事件分類。事件元素分類:為每個(gè)事件觸發(fā)詞尋找事件元素,并判斷元素在事件中扮演的角色。因?yàn)殡A段②更為復(fù)雜,以下以事件元素分類為例說明基于動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)的事件抽取過程。用于事件元素分類的網(wǎng)絡(luò)結(jié)構(gòu):由四部分組成word-embeddinglearninglexical-levelfeaturerepresentationsentence-levelfeatureextractionargumentclassifieroutputYuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)112方法-DMCNN因?yàn)橥粋€(gè)句子可能有多個(gè)觸發(fā)詞候選及其事件元素候選,分段的位置點(diǎn)是動(dòng)態(tài)變化的,所以是動(dòng)態(tài)分段最大池化。這里兩個(gè)位置點(diǎn)是事件觸發(fā)詞fired和候選事件元素cameraman。基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)EF:EventTypeFeature113方法-DMCNN三個(gè)卷積核,F(xiàn)ilterSize為3的卷積過程示例。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)114方法-DMCNN三個(gè)卷積核,F(xiàn)ilterSize為3的卷積過程示例。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)115方法-DMCNN三個(gè)卷積核,F(xiàn)ilterSize為3的卷積過程示例。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)116方法-DMCNN三個(gè)卷積核,F(xiàn)ilterSize為3的卷積過程示例。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)117方法-DMCNN三個(gè)卷積核,F(xiàn)ilterSize為3的卷積過程示例。YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)118方法-DMCNN最大池化vs.動(dòng)態(tài)最大池化對(duì)比YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)Featuremap1Featuremap3Featuremap2119實(shí)驗(yàn)比較YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".ACL2015基于動(dòng)態(tài)最大池化技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)120事件語料自動(dòng)生成現(xiàn)有方法的問題有監(jiān)督的事件抽取方法:依賴人工標(biāo)注的數(shù)據(jù)ACE2005的英文數(shù)據(jù)中,事件類型總共8大類33個(gè)小類,人工標(biāo)注的事件抽取訓(xùn)練集共599篇文檔。60%的類別對(duì)應(yīng)標(biāo)注數(shù)據(jù)不足100個(gè),甚至其中3個(gè)事件類型標(biāo)注數(shù)據(jù)不到10個(gè)。

無監(jiān)督的事件抽取方法:抽取的結(jié)果沒有規(guī)范的語義標(biāo)簽,很難直接映射到現(xiàn)有知識(shí)庫。YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017121事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法動(dòng)機(jī)自動(dòng)生成標(biāo)注語料開放域環(huán)境大規(guī)模自動(dòng)抽取遠(yuǎn)距離監(jiān)督的方法在關(guān)系抽取中取得成功YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017122難點(diǎn)一:現(xiàn)有事件知識(shí)庫中缺少觸發(fā)詞信息關(guān)系知識(shí)庫:(實(shí)體1,關(guān)系,實(shí)體2)可以利用MichelleObama和BarackObama回標(biāo)事件知識(shí)庫:(事件實(shí)例,事件類型;角色1,事件元素1;角色2,事件元素2......角色N,事件元素N)上圖的例子中事件實(shí)例是MichelleObama和BarackObama結(jié)婚的事件,知識(shí)庫中用虛擬節(jié)點(diǎn)m.02nqglv表示。無法利用m.02nqglv和BarackObama直接回標(biāo)。

YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法123難點(diǎn)二:事件元素并不都是必須出現(xiàn)。知識(shí)庫中只有60%的事件實(shí)例包含所有的事件元素難點(diǎn)三:一個(gè)事件的多個(gè)元素可以出現(xiàn)在多個(gè)句子中。只有0.02%的事件實(shí)例能在一句話中找到所有的事件元素YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法124方法利用世界知識(shí)和語言學(xué)知識(shí)自動(dòng)生成大規(guī)模事件語料YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法125實(shí)驗(yàn)自動(dòng)生成的數(shù)據(jù)當(dāng)僅利用兩個(gè)核心元素回標(biāo)時(shí),生成421,602個(gè)標(biāo)注數(shù)據(jù),但是這個(gè)數(shù)據(jù)中沒有標(biāo)注觸發(fā)詞信息。當(dāng)同時(shí)利用核心元素和事件觸發(fā)詞回標(biāo)時(shí),生成72,611個(gè)標(biāo)注數(shù)據(jù)。與ACE人工標(biāo)注的將近6,000個(gè)的標(biāo)注數(shù)據(jù)相比,該方法能自動(dòng)生成大規(guī)模訓(xùn)練數(shù)據(jù)。YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法126實(shí)驗(yàn)標(biāo)注數(shù)據(jù)的人工評(píng)價(jià)標(biāo)注數(shù)據(jù)的自動(dòng)評(píng)價(jià)事件語料自動(dòng)生成

遠(yuǎn)監(jiān)督方法YuboChen,etal."AutomaticallyLabeledDataGenerationforLargeScaleEventExtraction".ACL2017127動(dòng)機(jī):利用FrameNet中的框架及其標(biāo)注例句擴(kuò)充事件抽取訓(xùn)練集。FrameNet語言學(xué)家定義及標(biāo)注的語義框架資源層級(jí)的組織結(jié)構(gòu)FrameNet規(guī)模1000+框架10000+詞法單元150000+標(biāo)注例句

ShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016事件語料自動(dòng)生成

基于FrameNet128結(jié)構(gòu)相似性框架:一個(gè)詞法單元和若干框架元素事件:一個(gè)觸發(fā)詞和若干事件角色含義相似性

ShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016事件語料自動(dòng)生成

基于FrameNet129系統(tǒng)框架圖

ShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016第一步:利用ACE語料訓(xùn)練,得到基礎(chǔ)的事件識(shí)別模型第二步:利用基礎(chǔ)模型在FrameNet數(shù)據(jù)上進(jìn)行事件識(shí)別第三步:基于概率軟邏輯,利用全局規(guī)則對(duì)第二步的識(shí)別結(jié)果進(jìn)行校正,得到最終擴(kuò)充的語料。事件語料自動(dòng)生成

基于FrameNet130實(shí)驗(yàn):說明自動(dòng)從FrameNet中擴(kuò)展的樣本質(zhì)量很高。

事件語料自動(dòng)生成

基于FrameNetShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016131實(shí)驗(yàn)

ShulinLiu,etal."LeveragingFrameNettoImproveAutomaticEventDetection".ACL2016事件語料自動(dòng)生成

基于FrameNet132篇章級(jí)金融事件抽取股權(quán)凍結(jié)事件示例HangYang,etal."DCFEE:ADocument-levelChineseFinancialEventExtractionSystembasedonAutomaticallyLabeledTrainingData".EMNLP2018133標(biāo)注數(shù)據(jù)的缺失現(xiàn)有的事件抽取系統(tǒng)性能都依賴于人工標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論