基于知識(shí)的智能問答技術(shù)_第1頁
基于知識(shí)的智能問答技術(shù)_第2頁
基于知識(shí)的智能問答技術(shù)_第3頁
基于知識(shí)的智能問答技術(shù)_第4頁
基于知識(shí)的智能問答技術(shù)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余5頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、題目:基于知識(shí)的智能問答技術(shù)(PDF)作者:許坤,馮巖松(北京大學(xué))作者簡介:許坤,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所博士生,研究方向?yàn)榛谥R(shí)庫的智能問答技術(shù),已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫的知識(shí)問答評(píng)測(cè)QALD-4,5,6中獲得第一名。馮巖松,北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所講師。2011年畢業(yè)于英國愛丁堡大學(xué),獲得信息科學(xué)博士學(xué)位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用;研究小組已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫的知識(shí)問答評(píng)測(cè)QALD中獲得第一名;相關(guān)工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會(huì)議上。作為項(xiàng)目負(fù)責(zé)人或課題骨干已承擔(dān)多項(xiàng)國家自然科學(xué)基

2、金及科技部863計(jì)劃項(xiàng)目。分別在2014和2015年獲得舊MFacultyAward。引言近年來,信息抽取技術(shù)的快速發(fā)展使得快速構(gòu)建大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化知識(shí)庫成為可能。一大批結(jié)構(gòu)化知識(shí)庫如雨后春筍般涌現(xiàn)出來,如GoogleKnolwedgeGraph(Freebas、Yago,DBpedia、微軟ProBass搜狗知立方及百度等企業(yè)內(nèi)部的知識(shí)圖譜等。同時(shí),這些大規(guī)模知識(shí)庫也被應(yīng)用于關(guān)聯(lián)檢索、個(gè)性化推薦、知識(shí)問答等任務(wù)中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng),利用知識(shí)庫回答自然語言問題可以為用戶提供更精確、簡潔的答案,因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前基于知識(shí)庫的問答技術(shù)可以大致分為兩類。

3、第一類基于語義解析的方法。這類方法通過學(xué)習(xí)相關(guān)語法將自然語言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語義的形式化語言,如邏輯表達(dá)式等。構(gòu)建這樣的語義解析器需要大量的標(biāo)注數(shù)據(jù),例如,自然語言問題及其對(duì)應(yīng)的語義描述形式。然而,針對(duì)Freebaseg樣大規(guī)模的結(jié)構(gòu)化知識(shí)庫,在實(shí)際中很難收集到足夠多的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外,語義描述形式與知識(shí)庫的結(jié)構(gòu)之間的不匹配也是這類方法普遍遇到的一個(gè)問題,例如,在Freebase中并沒有干爸或現(xiàn)媽I這樣的謂詞關(guān)系,只有夕母II,因此,如果想表小一A是B的母親I這樣的關(guān)系,則需明確表小為一B$i母,AII并且一A,性別,女性口。另一類知識(shí)問答技術(shù)是傳統(tǒng)的基于信息檢索的方法。這類方法不

4、會(huì)將自然語言問題完全轉(zhuǎn)換成形式化的語義描述,而是首先利用實(shí)體鏈接技術(shù)從知識(shí)庫中收集候選答案集合,然后構(gòu)建排序模型對(duì)候選答案進(jìn)行排序。因?yàn)椴恍枰暾亟馕鲎匀徽Z言問題的語義結(jié)構(gòu),因此,這類方法構(gòu)造訓(xùn)練數(shù)據(jù)的過程相對(duì)簡單,只需收集問題答案對(duì)即可。實(shí)驗(yàn)表明,基于檢索的方法對(duì)語義簡單的自然語言問題比較有效,但是難以處理語義結(jié)構(gòu)復(fù)雜的問題,尤其是包含多個(gè)實(shí)體和關(guān)系的自然語言問題。例如,對(duì)于自然語言問題WhatmountainisthehighestinNorthAmerica?”,檢索類的方法由于缺乏對(duì)highest的正確解析,通常會(huì)將所有坐落在北美的山脈返回給用戶。事實(shí)上,為了得到正確的答案,問答系統(tǒng)

5、還需要根據(jù)山脈高度對(duì)候選答案進(jìn)行排序,并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對(duì)答案進(jìn)行篩選,費(fèi)時(shí)費(fèi)力。止匕外,由于自然語言描述的多樣性,人們也無法事先窮舉所有這樣的規(guī)則。然而事實(shí)上,F(xiàn)reebaseS樣的結(jié)構(gòu)化知識(shí)庫希望存儲(chǔ)關(guān)于真實(shí)世界的知識(shí)條目,而像維基百科頁面這樣的文本百科資源則存儲(chǔ)支持這些事實(shí)的文本描述。例如,在維基百科頁面中,我們可以找到一段與候選答案有關(guān)的文本Denali(alsoknownasMountMcKinley,itsformerofficialname)isthehighestmountainpeakinNorthAmerica,withasumm

6、itelevationof20,310feet(6,190m)abovesealevel很明顯可以看出,這段文本描述可以幫助我們提升Denali或者M(jìn)ountMcKinley作為正確答案的置信度,并過濾掉候選集中的錯(cuò)誤答案。正是受到這個(gè)發(fā)現(xiàn)的啟發(fā),我們提出同時(shí)利用結(jié)構(gòu)化知識(shí)庫與可信的文本百科資源,如維基百科頁面,來回答知識(shí)類自然語言問題。基于多種知識(shí)資源的問答技術(shù)框架whodidshaqfirstplayforKR-QAAnswerRefinenentLeAnm同LakersB.九上CelT:cs1etmeiLen:McdelOrlandoMagic圖1:針對(duì)問題whodidshaqfirst

7、playfoT流程圖以樣例問題whodidshaqfirstplayfc的處理流程為例,圖1展示了融合多種知識(shí)資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構(gòu)化知識(shí)庫Freebase的問題求解和基于非結(jié)構(gòu)化知識(shí)資源Wikipedia文本的淺層推理。基于結(jié)構(gòu)化知識(shí)庫的問題求解基于結(jié)構(gòu)化知識(shí)資源的問題求解部分只需給出候選答案集合即可,因此既可采用基于語義解析的方法,也可以直接采用基于檢索的方法來實(shí)現(xiàn)。這里我們采用的是基于檢索的方案,主要包括實(shí)體鏈接,關(guān)系抽取,以及這兩部分的聯(lián)合消解三大部分。1) 實(shí)體鏈接實(shí)體鏈接在知識(shí)類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實(shí)體候選

8、,以前面的問題為例,我們可以利用POS序列NN識(shí)別出實(shí)體shaq。對(duì)于識(shí)別出來的實(shí)體候選,我們使用實(shí)體鏈接工具S-MART獲取可以潛在鏈接到Freebase勺5個(gè)候選實(shí)體。具體而言,對(duì)給定的實(shí)體候選,S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實(shí)體,然后利用統(tǒng)計(jì)模型根據(jù)知識(shí)庫實(shí)體與實(shí)體候選之間的共現(xiàn)頻率計(jì)算出一個(gè)得分并排序,最終給出實(shí)體鏈接結(jié)果。2) 關(guān)系抽取關(guān)系抽取用于識(shí)別問句中的實(shí)體與答案(疑問詞)之間的語義關(guān)系。我們使用多通道卷積神經(jīng)網(wǎng)絡(luò)來確定自然語言問題中實(shí)體與答案之間存在的關(guān)系。具體地講,我們使用兩個(gè)通道,一個(gè)通道捕捉句法信息,另一個(gè)通道捕捉上下文信息。每個(gè)通道的

9、卷積層接受一個(gè)長度不固定的輸入,但是返回一個(gè)固定長度的向量(我們使用最大采樣法)。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入,該分類器的輸出向量維度等于關(guān)系類別的總數(shù),每一維的值等于映射到對(duì)應(yīng)知識(shí)庫謂詞的置信度。3)實(shí)體和關(guān)系的聯(lián)合消歧通常情況下的實(shí)體鏈接與實(shí)體關(guān)系抽取都是獨(dú)立預(yù)測(cè)的,因而不可避免的會(huì)存在流水線框架下常見的錯(cuò)誤傳遞現(xiàn)象。因此,我們提出了一種聯(lián)合優(yōu)化模型從實(shí)體鏈接和關(guān)系抽取的候選結(jié)果中選擇一個(gè)全局最優(yōu)的S體-關(guān)系I配置。這個(gè)挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個(gè)排序問題,即,-合理的實(shí)體-關(guān)系配置在知識(shí)庫中應(yīng)更常見,應(yīng)該有更高的得分。我們主要依賴從知識(shí)庫

10、中抽取的三類特征,即實(shí)體特征、關(guān)系特征和答案的特別特征?;赪ikipedia文本描述的淺層推理基于結(jié)構(gòu)化知識(shí)庫求解的候選答案集,我們從維基百科文本資源中收集候選答案的支持文本,并訓(xùn)練答案過濾器對(duì)候選答案集進(jìn)行篩選,以得到更準(zhǔn)確的答案。1) 數(shù)據(jù)預(yù)處理具體地講,我們首先從維基百科中找出描述自然語言問題中實(shí)體的頁面。我們抽取維基百科頁面的內(nèi)容,并利用Wikifier識(shí)別句子中的維基百科實(shí)體,再利用FreebaeAPI將這些實(shí)體映射到Freebase中的實(shí)體。最后在頁面中尋找包含候選答案的句子當(dāng)做支持文本。2) 答案過濾模型我們將淺層推理的過程抽象為一個(gè)面向候選答案的二分類任務(wù)。在實(shí)驗(yàn)中,我們使用

11、LibSVM來訓(xùn)練該二分類器。該分類器主要使用的特征是詞級(jí)別配對(duì)特征,其中第一個(gè)部分來自給定的問題,而第二個(gè)部分來自維基百科中的支持文本。更形式化地,給定一個(gè)問題q=和一個(gè)作為支持文本的句子s=,其中記q和s中的單詞分別為qi和sj。對(duì)每個(gè)問題與支持文本對(duì)(q,s),我們可以生成詞級(jí)別配對(duì)特征集合(qi,s),這些詞對(duì)出現(xiàn)的次數(shù)作為特征用來訓(xùn)練分類器。需要指出的是,這里僅嘗試了最簡單的二分類方式,主要目的是檢驗(yàn)附加文本資源的作用;而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡(luò)等更精巧的融合方式可能會(huì)帶來更明顯的準(zhǔn)確率提升。實(shí)驗(yàn)我們使用WebQuestions數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。該數(shù)據(jù)集一共包含5810個(gè)自然語言問

12、題以及答案。其中訓(xùn)練集包含3778個(gè)問題(65%),測(cè)試集包含2032個(gè)問題(35%)。我們使用答案的平均Fi值來評(píng)測(cè)本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均Fi(Bastetal.2015)49.4(Berantetal.2015)49.7(Reddyetal.2016)50.3(Yihetal.2015)52.5本研究,作Structured44.1Structured+Joint47.1Structured+Unstructured47.0Structured+Joint+Unstructured53.3表1基于關(guān)系抽取問答技術(shù)在WebQuestion

13、s數(shù)據(jù)集上的結(jié)果為了確定所提出框架中不同模塊的重要性,我們?cè)敿?xì)比較了以下幾種模型變種的結(jié)果。Structured該方法只包含基于結(jié)構(gòu)化知識(shí)庫Freebasefl勺問題求解。具體地講,我們首先進(jìn)行實(shí)體鏈接,將自然語言問題中包含的實(shí)體名詞映射到Freebase中的實(shí)體,其中得分最高的實(shí)體被當(dāng)做結(jié)果。然后我們進(jìn)行關(guān)系抽取并從候選關(guān)系中選擇與實(shí)體最匹配的關(guān)系當(dāng)做最終的實(shí)體-關(guān)系配置。最后,我們使用這個(gè)實(shí)體-關(guān)系配置來預(yù)測(cè)問題的答案。Structured+Joint與上面的方法略有不同,這個(gè)方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實(shí)體-關(guān)系組合,并進(jìn)行基于結(jié)構(gòu)化知識(shí)庫的問題解答。Structured+Un

14、structured這個(gè)方法里,我們使用流水線的實(shí)體鏈接和關(guān)系抽取結(jié)果進(jìn)行基于結(jié)構(gòu)化知識(shí)庫的問題求解,進(jìn)而,利用基于維基百科的淺層推理來篩選答案。Structured+Joint+Unstructured這是我們所提出的融合多種知識(shí)資源的完整的問答框架。我們首先在結(jié)構(gòu)化知識(shí)庫Freebase上進(jìn)行問題求解,即,進(jìn)行實(shí)體鏈接和關(guān)系抽取的聯(lián)合優(yōu)化,并在Freebase獲得候選答案集合;在此基礎(chǔ)上進(jìn)行基于文本的淺層推理,即,從維基百科中抽取答案支持文本,并對(duì)候選答案進(jìn)行篩選,獲得最終答案。從表1中的結(jié)果,我們可以發(fā)現(xiàn)實(shí)體鏈接和關(guān)系抽取的聯(lián)合推理結(jié)果會(huì)優(yōu)于流水線方法,整體效果提高了3%,并且比大部分語

15、義解析的方法要好。另一方面,與(Yihetal.2015)利用人工編寫規(guī)則的工作相比,融合結(jié)構(gòu)化知識(shí)庫與文本知識(shí)資源的方法在問答準(zhǔn)確率上整體提高了0.8%,這進(jìn)一步說明了恰當(dāng)?shù)氖褂梅墙Y(jié)構(gòu)化的文本知識(shí)資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語言問題。本文提出的融合不同知識(shí)資源的問題解答框架具有較好的可擴(kuò)展性,無論在結(jié)構(gòu)化知識(shí)庫求解部分,還是多種資源的融合利用方面都可進(jìn)一步改進(jìn),以更大限度的發(fā)揮不同資源之間的互補(bǔ)作用,提高知識(shí)類問題的解答精度。 HannahBast,ElmarHaussmann.MoreAccurateQuestionAnsweringonFreebase.CIKM.2

16、015,1431-1440,JonathanBerant,PercyLiang.ImitationLearningofAgenda-basedSemanticParsersJ.TransactionsoftheAssociationforComputationalLinguistics.2015,3:545方58 SivaReddy,OscarT2kstr?m,MichaelCollins,TomKwiatkowski,DipanjanDas,MarkSteedman,MirellaLapata.TransformingDependencyStructurestoLogicalFormsfor

17、SemanticParsingJ.TransactionsoftheAssociationforComputationalLinguistics.2016,4:127-140 KunXu;SivaReddy;YansongFeng;SongfangHuang;DongyanZhaoQuestionAnsweringonFreebaseviaRelationExtractionandTextualEvidence.ACL2016, KunXu;YansongFeng;SongfangHuang;DongyanZhao,HybridQuestionAnsweringoverKnowledgeBaseandFreeText,COLI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論