基于知識(shí)的智能問答技術(shù)

上傳人：z*** IP屬地：天津上傳時(shí)間：2022-05-11 格式：DOCX 頁數(shù)：10 大?。?01.75KB 積分：18 舉報(bào) 版權(quán)申訴

免費(fèi)預(yù)覽已結(jié)束，剩余5頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、題目：基于知識(shí)的智能問答技術(shù)（PDF）作者：許坤，馮巖松（北京大學(xué)）作者簡介：許坤，北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所博士生，研究方向?yàn)榛谥R(shí)庫的智能問答技術(shù)，已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫的知識(shí)問答評(píng)測(cè)QALD-4,5,6中獲得第一名。馮巖松，北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所講師。2011年畢業(yè)于英國愛丁堡大學(xué)，獲得信息科學(xué)博士學(xué)位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用；研究小組已連續(xù)三年在面向結(jié)構(gòu)化知識(shí)庫的知識(shí)問答評(píng)測(cè)QALD中獲得第一名；相關(guān)工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會(huì)議上。作為項(xiàng)目負(fù)責(zé)人或課題骨干已承擔(dān)多項(xiàng)國家自然科學(xué)基

2、金及科技部863計(jì)劃項(xiàng)目。分別在2014和2015年獲得舊MFacultyAward。引言近年來，信息抽取技術(shù)的快速發(fā)展使得快速構(gòu)建大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化知識(shí)庫成為可能。一大批結(jié)構(gòu)化知識(shí)庫如雨后春筍般涌現(xiàn)出來，如GoogleKnolwedgeGraph（Freebas、Yago,DBpedia、微軟ProBass搜狗知立方及百度等企業(yè)內(nèi)部的知識(shí)圖譜等。同時(shí)，這些大規(guī)模知識(shí)庫也被應(yīng)用于關(guān)聯(lián)檢索、個(gè)性化推薦、知識(shí)問答等任務(wù)中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng)，利用知識(shí)庫回答自然語言問題可以為用戶提供更精確、簡潔的答案，因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前基于知識(shí)庫的問答技術(shù)可以大致分為兩類。

3、第一類基于語義解析的方法。這類方法通過學(xué)習(xí)相關(guān)語法將自然語言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語義的形式化語言，如邏輯表達(dá)式等。構(gòu)建這樣的語義解析器需要大量的標(biāo)注數(shù)據(jù)，例如，自然語言問題及其對(duì)應(yīng)的語義描述形式。然而，針對(duì)Freebaseg樣大規(guī)模的結(jié)構(gòu)化知識(shí)庫，在實(shí)際中很難收集到足夠多的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外，語義描述形式與知識(shí)庫的結(jié)構(gòu)之間的不匹配也是這類方法普遍遇到的一個(gè)問題，例如，在Freebase中并沒有干爸或現(xiàn)媽I這樣的謂詞關(guān)系，只有夕母II,因此，如果想表小一A是B的母親I這樣的關(guān)系，則需明確表小為一B$i母,AII并且一A,性別，女性口。另一類知識(shí)問答技術(shù)是傳統(tǒng)的基于信息檢索的方法。這類方法不

4、會(huì)將自然語言問題完全轉(zhuǎn)換成形式化的語義描述，而是首先利用實(shí)體鏈接技術(shù)從知識(shí)庫中收集候選答案集合，然后構(gòu)建排序模型對(duì)候選答案進(jìn)行排序。因?yàn)椴恍枰暾亟馕鲎匀徽Z言問題的語義結(jié)構(gòu)，因此，這類方法構(gòu)造訓(xùn)練數(shù)據(jù)的過程相對(duì)簡單，只需收集問題答案對(duì)即可。實(shí)驗(yàn)表明，基于檢索的方法對(duì)語義簡單的自然語言問題比較有效，但是難以處理語義結(jié)構(gòu)復(fù)雜的問題，尤其是包含多個(gè)實(shí)體和關(guān)系的自然語言問題。例如，對(duì)于自然語言問題WhatmountainisthehighestinNorthAmerica?”，檢索類的方法由于缺乏對(duì)highest的正確解析，通常會(huì)將所有坐落在北美的山脈返回給用戶。事實(shí)上，為了得到正確的答案，問答系統(tǒng)

5、還需要根據(jù)山脈高度對(duì)候選答案進(jìn)行排序，并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對(duì)答案進(jìn)行篩選，費(fèi)時(shí)費(fèi)力。止匕外，由于自然語言描述的多樣性，人們也無法事先窮舉所有這樣的規(guī)則。然而事實(shí)上，F(xiàn)reebaseS樣的結(jié)構(gòu)化知識(shí)庫希望存儲(chǔ)關(guān)于真實(shí)世界的知識(shí)條目，而像維基百科頁面這樣的文本百科資源則存儲(chǔ)支持這些事實(shí)的文本描述。例如，在維基百科頁面中，我們可以找到一段與候選答案有關(guān)的文本Denali(alsoknownasMountMcKinley,itsformerofficialname)isthehighestmountainpeakinNorthAmerica,withasumm

6、itelevationof20,310feet(6,190m)abovesealevel很明顯可以看出，這段文本描述可以幫助我們提升Denali或者M(jìn)ountMcKinley作為正確答案的置信度，并過濾掉候選集中的錯(cuò)誤答案。正是受到這個(gè)發(fā)現(xiàn)的啟發(fā)，我們提出同時(shí)利用結(jié)構(gòu)化知識(shí)庫與可信的文本百科資源，如維基百科頁面，來回答知識(shí)類自然語言問題。基于多種知識(shí)資源的問答技術(shù)框架whodidshaqfirstplayforKR-QAAnswerRefinenentLeAnm同LakersB.九上CelT：cs1etmeiLen：McdelOrlandoMagic圖1:針對(duì)問題whodidshaqfirst

7、playfoT流程圖以樣例問題whodidshaqfirstplayfc的處理流程為例，圖1展示了融合多種知識(shí)資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構(gòu)化知識(shí)庫Freebase的問題求解和基于非結(jié)構(gòu)化知識(shí)資源Wikipedia文本的淺層推理。基于結(jié)構(gòu)化知識(shí)庫的問題求解基于結(jié)構(gòu)化知識(shí)資源的問題求解部分只需給出候選答案集合即可，因此既可采用基于語義解析的方法，也可以直接采用基于檢索的方法來實(shí)現(xiàn)。這里我們采用的是基于檢索的方案，主要包括實(shí)體鏈接，關(guān)系抽取，以及這兩部分的聯(lián)合消解三大部分。1）實(shí)體鏈接實(shí)體鏈接在知識(shí)類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實(shí)體候選

8、，以前面的問題為例，我們可以利用POS序列NN識(shí)別出實(shí)體shaq。對(duì)于識(shí)別出來的實(shí)體候選，我們使用實(shí)體鏈接工具S-MART獲取可以潛在鏈接到Freebase勺5個(gè)候選實(shí)體。具體而言，對(duì)給定的實(shí)體候選，S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實(shí)體，然后利用統(tǒng)計(jì)模型根據(jù)知識(shí)庫實(shí)體與實(shí)體候選之間的共現(xiàn)頻率計(jì)算出一個(gè)得分并排序，最終給出實(shí)體鏈接結(jié)果。2）關(guān)系抽取關(guān)系抽取用于識(shí)別問句中的實(shí)體與答案（疑問詞）之間的語義關(guān)系。我們使用多通道卷積神經(jīng)網(wǎng)絡(luò)來確定自然語言問題中實(shí)體與答案之間存在的關(guān)系。具體地講,我們使用兩個(gè)通道，一個(gè)通道捕捉句法信息，另一個(gè)通道捕捉上下文信息。每個(gè)通道的

9、卷積層接受一個(gè)長度不固定的輸入，但是返回一個(gè)固定長度的向量（我們使用最大采樣法）。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入，該分類器的輸出向量維度等于關(guān)系類別的總數(shù)，每一維的值等于映射到對(duì)應(yīng)知識(shí)庫謂詞的置信度。3)實(shí)體和關(guān)系的聯(lián)合消歧通常情況下的實(shí)體鏈接與實(shí)體關(guān)系抽取都是獨(dú)立預(yù)測(cè)的，因而不可避免的會(huì)存在流水線框架下常見的錯(cuò)誤傳遞現(xiàn)象。因此，我們提出了一種聯(lián)合優(yōu)化模型從實(shí)體鏈接和關(guān)系抽取的候選結(jié)果中選擇一個(gè)全局最優(yōu)的S體-關(guān)系I配置。這個(gè)挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個(gè)排序問題，即，-合理的實(shí)體-關(guān)系配置在知識(shí)庫中應(yīng)更常見，應(yīng)該有更高的得分。我們主要依賴從知識(shí)庫

10、中抽取的三類特征，即實(shí)體特征、關(guān)系特征和答案的特別特征?；赪ikipedia文本描述的淺層推理基于結(jié)構(gòu)化知識(shí)庫求解的候選答案集，我們從維基百科文本資源中收集候選答案的支持文本，并訓(xùn)練答案過濾器對(duì)候選答案集進(jìn)行篩選，以得到更準(zhǔn)確的答案。1) 數(shù)據(jù)預(yù)處理具體地講，我們首先從維基百科中找出描述自然語言問題中實(shí)體的頁面。我們抽取維基百科頁面的內(nèi)容，并利用Wikifier識(shí)別句子中的維基百科實(shí)體，再利用FreebaeAPI將這些實(shí)體映射到Freebase中的實(shí)體。最后在頁面中尋找包含候選答案的句子當(dāng)做支持文本。2) 答案過濾模型我們將淺層推理的過程抽象為一個(gè)面向候選答案的二分類任務(wù)。在實(shí)驗(yàn)中，我們使用

11、LibSVM來訓(xùn)練該二分類器。該分類器主要使用的特征是詞級(jí)別配對(duì)特征，其中第一個(gè)部分來自給定的問題，而第二個(gè)部分來自維基百科中的支持文本。更形式化地，給定一個(gè)問題q=和一個(gè)作為支持文本的句子s=,其中記q和s中的單詞分別為qi和sj。對(duì)每個(gè)問題與支持文本對(duì)(q,s),我們可以生成詞級(jí)別配對(duì)特征集合(qi,s),這些詞對(duì)出現(xiàn)的次數(shù)作為特征用來訓(xùn)練分類器。需要指出的是，這里僅嘗試了最簡單的二分類方式，主要目的是檢驗(yàn)附加文本資源的作用；而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡(luò)等更精巧的融合方式可能會(huì)帶來更明顯的準(zhǔn)確率提升。實(shí)驗(yàn)我們使用WebQuestions數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。該數(shù)據(jù)集一共包含5810個(gè)自然語言問

12、題以及答案。其中訓(xùn)練集包含3778個(gè)問題（65%）,測(cè)試集包含2032個(gè)問題（35%）。我們使用答案的平均Fi值來評(píng)測(cè)本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均Fi(Bastetal.2015)49.4(Berantetal.2015)49.7(Reddyetal.2016)50.3(Yihetal.2015)52.5本研究，作Structured44.1Structured+Joint47.1Structured+Unstructured47.0Structured+Joint+Unstructured53.3表1基于關(guān)系抽取問答技術(shù)在WebQuestion

13、s數(shù)據(jù)集上的結(jié)果為了確定所提出框架中不同模塊的重要性，我們?cè)敿?xì)比較了以下幾種模型變種的結(jié)果。Structured該方法只包含基于結(jié)構(gòu)化知識(shí)庫Freebasefl勺問題求解。具體地講，我們首先進(jìn)行實(shí)體鏈接，將自然語言問題中包含的實(shí)體名詞映射到Freebase中的實(shí)體，其中得分最高的實(shí)體被當(dāng)做結(jié)果。然后我們進(jìn)行關(guān)系抽取并從候選關(guān)系中選擇與實(shí)體最匹配的關(guān)系當(dāng)做最終的實(shí)體-關(guān)系配置。最后，我們使用這個(gè)實(shí)體-關(guān)系配置來預(yù)測(cè)問題的答案。Structured+Joint與上面的方法略有不同，這個(gè)方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實(shí)體-關(guān)系組合，并進(jìn)行基于結(jié)構(gòu)化知識(shí)庫的問題解答。Structured+Un

14、structured這個(gè)方法里，我們使用流水線的實(shí)體鏈接和關(guān)系抽取結(jié)果進(jìn)行基于結(jié)構(gòu)化知識(shí)庫的問題求解，進(jìn)而，利用基于維基百科的淺層推理來篩選答案。Structured+Joint+Unstructured這是我們所提出的融合多種知識(shí)資源的完整的問答框架。我們首先在結(jié)構(gòu)化知識(shí)庫Freebase上進(jìn)行問題求解，即，進(jìn)行實(shí)體鏈接和關(guān)系抽取的聯(lián)合優(yōu)化，并在Freebase獲得候選答案集合；在此基礎(chǔ)上進(jìn)行基于文本的淺層推理，即，從維基百科中抽取答案支持文本，并對(duì)候選答案進(jìn)行篩選，獲得最終答案。從表1中的結(jié)果，我們可以發(fā)現(xiàn)實(shí)體鏈接和關(guān)系抽取的聯(lián)合推理結(jié)果會(huì)優(yōu)于流水線方法，整體效果提高了3%,并且比大部分語

15、義解析的方法要好。另一方面，與(Yihetal.2015)利用人工編寫規(guī)則的工作相比，融合結(jié)構(gòu)化知識(shí)庫與文本知識(shí)資源的方法在問答準(zhǔn)確率上整體提高了0.8%,這進(jìn)一步說明了恰當(dāng)?shù)氖褂梅墙Y(jié)構(gòu)化的文本知識(shí)資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語言問題。本文提出的融合不同知識(shí)資源的問題解答框架具有較好的可擴(kuò)展性，無論在結(jié)構(gòu)化知識(shí)庫求解部分，還是多種資源的融合利用方面都可進(jìn)一步改進(jìn)，以更大限度的發(fā)揮不同資源之間的互補(bǔ)作用，提高知識(shí)類問題的解答精度。 HannahBast,ElmarHaussmann.MoreAccurateQuestionAnsweringonFreebase.CIKM.2

16、015,1431-1440,JonathanBerant,PercyLiang.ImitationLearningofAgenda-basedSemanticParsersJ.TransactionsoftheAssociationforComputationalLinguistics.2015,3:545方58 SivaReddy,OscarT2kstr?m,MichaelCollins,TomKwiatkowski,DipanjanDas,MarkSteedman,MirellaLapata.TransformingDependencyStructurestoLogicalFormsfor

17、SemanticParsingJ.TransactionsoftheAssociationforComputationalLinguistics.2016,4:127-140 KunXu;SivaReddy;YansongFeng;SongfangHuang;DongyanZhaoQuestionAnsweringonFreebaseviaRelationExtractionandTextualEvidence.ACL2016, KunXu;YansongFeng;SongfangHuang;DongyanZhao,HybridQuestionAnsweringoverKnowledgeBaseandFreeText,COLI

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于知識(shí)的智能問答技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于知識(shí)的智能問答技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔