基于web搜索引擎的問答系統(tǒng)架構(gòu)課件_第1頁
基于web搜索引擎的問答系統(tǒng)架構(gòu)課件_第2頁
基于web搜索引擎的問答系統(tǒng)架構(gòu)課件_第3頁
基于web搜索引擎的問答系統(tǒng)架構(gòu)課件_第4頁
基于web搜索引擎的問答系統(tǒng)架構(gòu)課件_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

李方濤2008.11.15問答系統(tǒng)介紹12/12/2022QuestionAnswering—FangtaoLi李方濤問答系統(tǒng)介紹12/11/2022QuestionAn問答系統(tǒng)介紹背景介紹問答系統(tǒng)的歷史問答系統(tǒng)分類相關(guān)系統(tǒng)介紹自動問答系統(tǒng)框架及相關(guān)研究未來可能研究方向總結(jié)12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)介紹背景介紹12/11/2022QuestionA10月12日英國圖靈測試艾爾博特12日與12個陌生人交談,力圖讓他們相信“它”是“人”,騙過3人12/12/2022GraphicModels--ShilinDING10月12日英國圖靈測試12/11/2022Graphi7月1日,微軟收購PowerSet微軟以1億美金收購語義搜素引擎PowerSet12/12/2022GraphicModels--ShilinDING7月1日,微軟收購PowerSet12/11/2022Gra背景介紹互聯(lián)網(wǎng)信息增長2022/12/12全球手機(jī)用戶今年底將達(dá)40億人國際電信聯(lián)盟手機(jī)用戶日漸增多《2007年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告》

中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)網(wǎng)頁數(shù)量(億)背景介紹互聯(lián)網(wǎng)信息增長2022/12/11全球手機(jī)用戶今年底背景介紹搜索引擎技術(shù)的缺陷基于關(guān)鍵詞,無法精確表達(dá)用戶需求BooksforchildrenBooksbychildren返回的不是精確知識,而是相關(guān)文檔列表查找相關(guān)文檔獲得知識,費(fèi)時費(fèi)力過多冗余信息不利于手機(jī)用戶獲取web知識屏幕小網(wǎng)速慢2022/12/12背景介紹搜索引擎技術(shù)的缺陷2022/12/11背景介紹自動問答系統(tǒng)基于自然語言的搜索引擎輸入的是以自然語言表示的句子輸出的是問題的精確答案能更方便,快捷的滿足用戶的需求2022/12/12背景介紹自動問答系統(tǒng)2022/12/11問答系統(tǒng)的歷史SomeoftheearlyAIsystemswereQAs(1960s)BASEBALL:answeredquestionsabouttheUSbaseballleagueoveraperiodofoneyear.LUNAR:W.Woods研制成功的基于知識的自然語言理解系統(tǒng).LUNAR用于查詢月球地質(zhì)數(shù)據(jù),協(xié)助地質(zhì)學(xué)家查詢分析阿波羅11號在月球采集的巖石標(biāo)本的成分,回答用戶的問題。該系統(tǒng)的數(shù)據(jù)庫中有13000條化學(xué)分析規(guī)則和10000條文獻(xiàn)論題索引.1971測試,答對90%以上的問題Thecommonfeatureofallthesesystemsisthattheyhadacoredatabaseorknowledgesystemthatwashand-writtenbyexpertsofthechosendomain12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)的歷史SomeoftheearlyAIsy問答系統(tǒng)的歷史ELIEA:1968年J.Weizenbaum在美國麻省理工學(xué)院設(shè)計(jì)的基于"模式匹配"的自然語言系統(tǒng)中最有名的一個。ELIEA模擬一位心理治療醫(yī)生(機(jī)器)同一位患者(用戶)進(jìn)行交談.用的是模式及關(guān)鍵字匹配和置換的方法,沒有發(fā)展成一套系統(tǒng)的技術(shù)。例如,假設(shè)有關(guān)鍵字me和句型模式:(*you**me),而且還有一個與該模式對應(yīng)的置換規(guī)則:(whatmakesyouthinkI**you),那么,當(dāng)輸入句為“Yesterdayyouhurtme.”時,輸出為“WhatmakesyouthinkIhurtyou?”。ELIZA另外一個明顯的弱點(diǎn)是:一旦發(fā)現(xiàn)用戶輸入中的一個關(guān)鍵字(詞),便馬上尋求答案,而不繼續(xù)尋找用戶句子中其它的關(guān)鍵字(詞),這樣使得一些優(yōu)先級別比較低的模式幾乎永遠(yuǎn)不會被匹配到。12/12/2022QuestionAnswering—FangtaoLiA:

It

is

certain

I

am

a

person

B:

How

long

have

you

been

a

person?

A:

More

than

20

years

B:

Say,

do

you

have

any

psychological

problems?

A:

m...how

about

consciousness

?

B:

Are

such

questions

on

your

mind

often?

A:

yes

B:

I

understand.

A:

tell

me

how

are

you

thinking

about

the

consciousness

.問答系統(tǒng)的歷史ELIEA:1968年J.Weizenbaum問答系統(tǒng)的歷史1999年開始,為鼓勵QA的發(fā)展,TREC設(shè)立了QA任務(wù),揭開了近年來開放領(lǐng)域自動問答系統(tǒng)研究的序幕2008年,又引入觀點(diǎn)問答系統(tǒng)(opinionQA)至今,共有50多個機(jī)構(gòu)參與了QA的評測,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft,Uni.ofEdinburgh,Uni.ofSheffield,USC以及國內(nèi)的中科院,復(fù)旦,哈工等高校和研究機(jī)構(gòu)以及最近,社區(qū)問答系統(tǒng)正在越來越受關(guān)注12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)的歷史1999年開始,為鼓勵QA的發(fā)展,TREC設(shè)問答系統(tǒng)分類自動問答系統(tǒng)(AutomaticQuestionAnswering)問題的答案存在于大量數(shù)據(jù)集中需要通過信息檢索,自然語言處理等技術(shù),獲得問題的答案完全自動,不需要人的參與A;start系統(tǒng)社區(qū)問答系統(tǒng)(CommunityQuestionAnswering)基于論壇,社區(qū)等形式的問答系統(tǒng)問題已經(jīng)被提出,并且已經(jīng)有人回答YahooAnswers!天涯問答,百度知道12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)分類自動問答系統(tǒng)(AutomaticQuesti問答系統(tǒng)分類自動問答系統(tǒng)OpendomainquestionansweringSystemYoucanaskquestionsaboutnearlyeverythingRelyongeneralontologyandworldknowledgeNeedmuchmoredatatoextractanswer ClosedDomainquestionansweringsystemDealwithquestionsunderaspecificdomain(forexample,medicine,novel)Usedomainspecificknowledge,usuallyformalizedinontologies12/12/2022GraphicModels--ShilinDING問答系統(tǒng)分類自動問答系統(tǒng)12/11/2022Graphic問答系統(tǒng)分類TREC的問題類型簡單事實(shí)型問題一般可以用一個名詞短語直接回答WhokilledAbrahamLincoln?簡單列表問題WhichcitieshaveheldtheOlympicGamestwice?復(fù)雜問題Why問題,How問題,Definition問題情感問題12/12/2022GraphicModels--ShilinDING問答系統(tǒng)分類TREC的問題類型12/11/2022Graph相關(guān)系統(tǒng)介紹Start系統(tǒng)AskJeeves系統(tǒng)AnswerBus系統(tǒng)PowerSet系統(tǒng)YahooAnswers!天涯問答百度知道12/12/2022GraphicModels--ShilinDING相關(guān)系統(tǒng)介紹Start系統(tǒng)12/11/2022GraphicStart系統(tǒng)MIT于1993年開發(fā)第一個基于Internet的問答系統(tǒng)/主要分為4類問題:GeographyScienceandReferenceArtsandEntertainmentHistoryandCulture基于知識庫和信息檢索的混合模式12/12/2022GraphicModels--ShilinDINGStart系統(tǒng)MIT于1993年開發(fā)12/11/2022GAskJeeves系統(tǒng)比較著名的商用問答系統(tǒng)/不僅可以查找web,也可采用新聞,圖片,視頻等作為數(shù)據(jù)源12/12/2022GraphicModels--ShilinDINGAskJeeves系統(tǒng)比較著名的商用問答系統(tǒng)12/11/20AnswerBus密歇根大學(xué)開發(fā)多語種問答系統(tǒng)12/12/2022GraphicModels--ShilinDINGAnswerBus密歇根大學(xué)開發(fā)12/11/2022GrapPowersetbuildinganaturallanguagesearchenginethatreadsandunderstandseverysentenceontheWebCurrentlybasedonWikiarticles12/12/2022GraphicModels--ShilinDINGPowersetbuildinganaturallanYahooAnswers!12/12/2022GraphicModels--ShilinDINGYahooAnswers!12/11/2022Graphi12/12/2022GraphicModels--ShilinDING12/11/2022GraphicModels--Shi12/12/2022QuestionAnswering—FangtaoLi12/11/2022QuestionAnswering—F自動問答系統(tǒng)的框架2022/12/12文檔集合信息檢索檢索結(jié)果問題分析答案選取問題答案自動問答系統(tǒng)的框架2022/12/11文檔集合信息檢索檢索結(jié)問題分類問題分類的作用減少候選答案的空間過濾其他類型的答案指導(dǎo)答案抽取策略不同類型的問題,采取不同的處理方式簡單事實(shí)型問題:可以采用模板匹配的方式Why或How復(fù)雜問題:可以采用文本摘要的方式2022/12/12問題分類問題分類的作用2022/12/11問題分類分類體系2022/12/12CoarseFineABBRAbbreviation,expressionDESCDefinition,description,manner,reasonENTYAnimal,body,color,creation,currency,disease/medicine,event,food,instrument,language,letter,other,plant,product,religion,sport,substance,symbol,technique,term,vehicle,wordHUMDescription,group,individual,titleLOCCity,country,mountain,other,stateNUMCode,count,date,distance,money,order,other,percent,period,speed,temperature,size,weightUIUC問題分類體系問題分類分類體系2022/12/11CoarseFineAB問題分類相關(guān)工作概述基于規(guī)則的方法根據(jù)問題體系,人工構(gòu)造規(guī)則匹配例如,Pasca曾使用以下規(guī)則用于問題分類Who<is|was|are|were><personname(s)>?Whatisthedefinitionof<phrasetodefine>?人工構(gòu)造規(guī)則,費(fèi)時費(fèi)力分類體系不同,需要重新構(gòu)造規(guī)則2022/12/12問題分類相關(guān)工作概述基于規(guī)則的方法2022/12/11相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法普通分類器Hacioglu等提出了使用單詞作為特征,并把詞性,短語,名詞實(shí)體添加為特征,利用SVM對問題進(jìn)行分類。(NAACL03)層次分類器Li提出了一種基于SNoW(SparseNetworkofWindow)的層次分類器,它首先將問題句分類到所屬的粗(coarse)類別,然后再分到細(xì)(fine)類別(Coling2002)Donald提出了一種基于問題詞的層次分類器,它首先根據(jù)句子中出現(xiàn)的問題詞進(jìn)行簡單的分類,然后再對每個類別分別訓(xùn)練一個分類器(NaturalLanguageEngineering,2007)2022/12/12相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法2022/12/11相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法基于句法結(jié)構(gòu)的樹狀分類器Zhang利用句法樹的子樹做特征,提出了基于樹形核函數(shù)的SVM問題分類器。(SIGIR02)Minh等人將問題分類任務(wù)轉(zhuǎn)化為對有序樹的分類任務(wù),最終利用最大熵模型和boosting模型完成對問題句子的分類。(IJCAI07)2022/12/12相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法2022/12/11相關(guān)研究:信息檢索基于關(guān)鍵詞的文章檢索與傳統(tǒng)的文章檢索差別不大更為精細(xì)的Index

(Hickle,TREC07;An,IR4QA08)查詢擴(kuò)展(Bilotti,MITMSthesis04;Riezler,ACL07)相關(guān)反饋(Harabagiu,ACL01;Negri,IR4QA04)句子檢索基于相似度的句子檢索MITRE:詞匹配Alicante:余弦距離ISI:多種相似度匹配組合2022/12/12相關(guān)研究:信息檢索基于關(guān)鍵詞的文章檢索2022/12/11相關(guān)研究:信息檢索句子檢索基于依存語法的句子檢索(Cui,SIGIR05)將問題和備選句子用句法分析器處理,生成句法樹在訓(xùn)練集中獲得依存關(guān)系的對應(yīng)概率對問題和備選句子對齊,分別在兩者中提取關(guān)系路徑選擇備選的關(guān)系路徑中與問題的關(guān)系路徑最相似的作為檢索結(jié)果基于翻譯模型的句子檢索(Murdock,IR4QA04)2022/12/12相關(guān)研究:信息檢索句子檢索2022/12/11相關(guān)研究:答案選取基于模板匹配的答案抽取方法基于嚴(yán)格模板匹配的答案抽取方法(Rav.,ACL02)基于寬松匹配的答案提取方法

(Cui,SIGIR05)模板匹配過于嚴(yán)格,考慮到間隔(gap)問題基于插入,刪除的語言模型和HMM模型2022/12/12模板獲取模板評價答案抽取相關(guān)研究:答案選取基于模板匹配的答案抽取方法2022/12/基于語言學(xué)特征的機(jī)器學(xué)習(xí)方法Ittycheriah利用最大熵模型綜合各種特征對候選答案排序。所使用的特征包含問題擴(kuò)展,中心詞,名詞實(shí)體,依存關(guān)系和匹配模板。(NAACL01)Shen使用支持向量機(jī)的三種核函數(shù):特征向量,字符串核函數(shù),樹形核函數(shù)對候選答案分類。(ACL06)Ko等人使用概率圖模型計(jì)算候選答案正確的概率。特征包含知識庫(Gazetteers,WordNet),基于外部數(shù)據(jù)(Wiki,Google),編輯距離,同義詞(SIGIR07)相關(guān)研究:答案選取2022/12/12基于語言學(xué)特征的機(jī)器學(xué)習(xí)方法相關(guān)研究:答案選取2022/12相關(guān)研究:答案選取基于Web搜索引擎的答案獲取方法Microsoft的AskMSR系統(tǒng)(EMNLP02)Lin的Aranea系統(tǒng)(TOIS07)Zhang的QUANTA系統(tǒng)(KDD07)2022/12/12基于web搜索引擎的問答系統(tǒng)架構(gòu)相關(guān)研究:答案選取基于Web搜索引擎的答案獲取方法2022/未來研究方向及相關(guān)研究領(lǐng)域傳統(tǒng)問答系統(tǒng)簡單事實(shí)問題列表問題定義問題12/12/2022QuestionAnswering—FangtaoLi未來研究方向及相關(guān)研究領(lǐng)域傳統(tǒng)問答系統(tǒng)12/11/2022Q未來研究方向及相關(guān)研究領(lǐng)域OpinionQuestionAnsweringRigidlists:givenaquestionsuchas:"NameUSsenatorswhosupporttaxreform.""Whichcountrieswouldliketobuildnuclearpowerplants?""Whichrockbandsdocollegestudentslike?"return:exactstringscontainingalistitemSquishylists:givenaquestionsuchas:"WhatcriticismsdoUSsenatorshaveagainstthecurrenttaxsystem?""Whydocountrieswanttohavenuclearpowerplants?""WhatdopeoplelikeaboutIkea?“return:stringscontainingananswertothequestion12/12/2022QuestionAnswering—FangtaoLi未來研究方向及相關(guān)研究領(lǐng)域OpinionQuestionCommunityQuestionAnsweringBasedonForumSuchasSMTHExtractQuestionAnswersfromThreadsBasedonCommunityQuestionAnalysisandManagementQuestionRetrieval12/12/2022QuestionAnswering—FangtaoLiCommunityQuestionAnsweringBaRecognizingTextualEntailment問答系統(tǒng)中,句子與句子的關(guān)系是一種有向的推理關(guān)系:文本=>答案WhoownsPowerset?MicrosoftboughtPowerset=>MicrosoftownsPowerset.文本推理關(guān)系的識別給(text)和一段假設(shè)(hypothesis),判斷假設(shè)在已知文本(text)的條件下是否正確2022/12/12TextualEntailmentMeaning

RepresentationRawTextSimilarityLocalLexicalSyntacticParseSemanticRepresentationMarywasKilledbyherhusband.Marywasmurdered.LumberisasubsidiaryofErnslawOneLumberownsErnslawOne.RecognizingTextualEntailment總結(jié)問答系統(tǒng)能夠跟好地滿足用戶的需求問答系統(tǒng)的產(chǎn)品越來越受到大家的重視問答系統(tǒng)的研究越來越廣泛12/12/2022QuestionAnswering—FangtaoLi總結(jié)問答系統(tǒng)能夠跟好地滿足用戶的需求12/11/2022Qu李方濤2008.11.15問答系統(tǒng)介紹12/12/2022QuestionAnswering—FangtaoLi李方濤問答系統(tǒng)介紹12/11/2022QuestionAn問答系統(tǒng)介紹背景介紹問答系統(tǒng)的歷史問答系統(tǒng)分類相關(guān)系統(tǒng)介紹自動問答系統(tǒng)框架及相關(guān)研究未來可能研究方向總結(jié)12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)介紹背景介紹12/11/2022QuestionA10月12日英國圖靈測試艾爾博特12日與12個陌生人交談,力圖讓他們相信“它”是“人”,騙過3人12/12/2022GraphicModels--ShilinDING10月12日英國圖靈測試12/11/2022Graphi7月1日,微軟收購PowerSet微軟以1億美金收購語義搜素引擎PowerSet12/12/2022GraphicModels--ShilinDING7月1日,微軟收購PowerSet12/11/2022Gra背景介紹互聯(lián)網(wǎng)信息增長2022/12/12全球手機(jī)用戶今年底將達(dá)40億人國際電信聯(lián)盟手機(jī)用戶日漸增多《2007年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告》

中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)網(wǎng)頁數(shù)量(億)背景介紹互聯(lián)網(wǎng)信息增長2022/12/11全球手機(jī)用戶今年底背景介紹搜索引擎技術(shù)的缺陷基于關(guān)鍵詞,無法精確表達(dá)用戶需求BooksforchildrenBooksbychildren返回的不是精確知識,而是相關(guān)文檔列表查找相關(guān)文檔獲得知識,費(fèi)時費(fèi)力過多冗余信息不利于手機(jī)用戶獲取web知識屏幕小網(wǎng)速慢2022/12/12背景介紹搜索引擎技術(shù)的缺陷2022/12/11背景介紹自動問答系統(tǒng)基于自然語言的搜索引擎輸入的是以自然語言表示的句子輸出的是問題的精確答案能更方便,快捷的滿足用戶的需求2022/12/12背景介紹自動問答系統(tǒng)2022/12/11問答系統(tǒng)的歷史SomeoftheearlyAIsystemswereQAs(1960s)BASEBALL:answeredquestionsabouttheUSbaseballleagueoveraperiodofoneyear.LUNAR:W.Woods研制成功的基于知識的自然語言理解系統(tǒng).LUNAR用于查詢月球地質(zhì)數(shù)據(jù),協(xié)助地質(zhì)學(xué)家查詢分析阿波羅11號在月球采集的巖石標(biāo)本的成分,回答用戶的問題。該系統(tǒng)的數(shù)據(jù)庫中有13000條化學(xué)分析規(guī)則和10000條文獻(xiàn)論題索引.1971測試,答對90%以上的問題Thecommonfeatureofallthesesystemsisthattheyhadacoredatabaseorknowledgesystemthatwashand-writtenbyexpertsofthechosendomain12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)的歷史SomeoftheearlyAIsy問答系統(tǒng)的歷史ELIEA:1968年J.Weizenbaum在美國麻省理工學(xué)院設(shè)計(jì)的基于"模式匹配"的自然語言系統(tǒng)中最有名的一個。ELIEA模擬一位心理治療醫(yī)生(機(jī)器)同一位患者(用戶)進(jìn)行交談.用的是模式及關(guān)鍵字匹配和置換的方法,沒有發(fā)展成一套系統(tǒng)的技術(shù)。例如,假設(shè)有關(guān)鍵字me和句型模式:(*you**me),而且還有一個與該模式對應(yīng)的置換規(guī)則:(whatmakesyouthinkI**you),那么,當(dāng)輸入句為“Yesterdayyouhurtme.”時,輸出為“WhatmakesyouthinkIhurtyou?”。ELIZA另外一個明顯的弱點(diǎn)是:一旦發(fā)現(xiàn)用戶輸入中的一個關(guān)鍵字(詞),便馬上尋求答案,而不繼續(xù)尋找用戶句子中其它的關(guān)鍵字(詞),這樣使得一些優(yōu)先級別比較低的模式幾乎永遠(yuǎn)不會被匹配到。12/12/2022QuestionAnswering—FangtaoLiA:

It

is

certain

I

am

a

person

B:

How

long

have

you

been

a

person?

A:

More

than

20

years

B:

Say,

do

you

have

any

psychological

problems?

A:

m...how

about

consciousness

?

B:

Are

such

questions

on

your

mind

often?

A:

yes

B:

I

understand.

A:

tell

me

how

are

you

thinking

about

the

consciousness

.問答系統(tǒng)的歷史ELIEA:1968年J.Weizenbaum問答系統(tǒng)的歷史1999年開始,為鼓勵QA的發(fā)展,TREC設(shè)立了QA任務(wù),揭開了近年來開放領(lǐng)域自動問答系統(tǒng)研究的序幕2008年,又引入觀點(diǎn)問答系統(tǒng)(opinionQA)至今,共有50多個機(jī)構(gòu)參與了QA的評測,其中包含LCC,MIT,Stanford,IBM,NUS,Microsoft,Uni.ofEdinburgh,Uni.ofSheffield,USC以及國內(nèi)的中科院,復(fù)旦,哈工等高校和研究機(jī)構(gòu)以及最近,社區(qū)問答系統(tǒng)正在越來越受關(guān)注12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)的歷史1999年開始,為鼓勵QA的發(fā)展,TREC設(shè)問答系統(tǒng)分類自動問答系統(tǒng)(AutomaticQuestionAnswering)問題的答案存在于大量數(shù)據(jù)集中需要通過信息檢索,自然語言處理等技術(shù),獲得問題的答案完全自動,不需要人的參與A;start系統(tǒng)社區(qū)問答系統(tǒng)(CommunityQuestionAnswering)基于論壇,社區(qū)等形式的問答系統(tǒng)問題已經(jīng)被提出,并且已經(jīng)有人回答YahooAnswers!天涯問答,百度知道12/12/2022QuestionAnswering—FangtaoLi問答系統(tǒng)分類自動問答系統(tǒng)(AutomaticQuesti問答系統(tǒng)分類自動問答系統(tǒng)OpendomainquestionansweringSystemYoucanaskquestionsaboutnearlyeverythingRelyongeneralontologyandworldknowledgeNeedmuchmoredatatoextractanswer ClosedDomainquestionansweringsystemDealwithquestionsunderaspecificdomain(forexample,medicine,novel)Usedomainspecificknowledge,usuallyformalizedinontologies12/12/2022GraphicModels--ShilinDING問答系統(tǒng)分類自動問答系統(tǒng)12/11/2022Graphic問答系統(tǒng)分類TREC的問題類型簡單事實(shí)型問題一般可以用一個名詞短語直接回答WhokilledAbrahamLincoln?簡單列表問題WhichcitieshaveheldtheOlympicGamestwice?復(fù)雜問題Why問題,How問題,Definition問題情感問題12/12/2022GraphicModels--ShilinDING問答系統(tǒng)分類TREC的問題類型12/11/2022Graph相關(guān)系統(tǒng)介紹Start系統(tǒng)AskJeeves系統(tǒng)AnswerBus系統(tǒng)PowerSet系統(tǒng)YahooAnswers!天涯問答百度知道12/12/2022GraphicModels--ShilinDING相關(guān)系統(tǒng)介紹Start系統(tǒng)12/11/2022GraphicStart系統(tǒng)MIT于1993年開發(fā)第一個基于Internet的問答系統(tǒng)/主要分為4類問題:GeographyScienceandReferenceArtsandEntertainmentHistoryandCulture基于知識庫和信息檢索的混合模式12/12/2022GraphicModels--ShilinDINGStart系統(tǒng)MIT于1993年開發(fā)12/11/2022GAskJeeves系統(tǒng)比較著名的商用問答系統(tǒng)/不僅可以查找web,也可采用新聞,圖片,視頻等作為數(shù)據(jù)源12/12/2022GraphicModels--ShilinDINGAskJeeves系統(tǒng)比較著名的商用問答系統(tǒng)12/11/20AnswerBus密歇根大學(xué)開發(fā)多語種問答系統(tǒng)12/12/2022GraphicModels--ShilinDINGAnswerBus密歇根大學(xué)開發(fā)12/11/2022GrapPowersetbuildinganaturallanguagesearchenginethatreadsandunderstandseverysentenceontheWebCurrentlybasedonWikiarticles12/12/2022GraphicModels--ShilinDINGPowersetbuildinganaturallanYahooAnswers!12/12/2022GraphicModels--ShilinDINGYahooAnswers!12/11/2022Graphi12/12/2022GraphicModels--ShilinDING12/11/2022GraphicModels--Shi12/12/2022QuestionAnswering—FangtaoLi12/11/2022QuestionAnswering—F自動問答系統(tǒng)的框架2022/12/12文檔集合信息檢索檢索結(jié)果問題分析答案選取問題答案自動問答系統(tǒng)的框架2022/12/11文檔集合信息檢索檢索結(jié)問題分類問題分類的作用減少候選答案的空間過濾其他類型的答案指導(dǎo)答案抽取策略不同類型的問題,采取不同的處理方式簡單事實(shí)型問題:可以采用模板匹配的方式Why或How復(fù)雜問題:可以采用文本摘要的方式2022/12/12問題分類問題分類的作用2022/12/11問題分類分類體系2022/12/12CoarseFineABBRAbbreviation,expressionDESCDefinition,description,manner,reasonENTYAnimal,body,color,creation,currency,disease/medicine,event,food,instrument,language,letter,other,plant,product,religion,sport,substance,symbol,technique,term,vehicle,wordHUMDescription,group,individual,titleLOCCity,country,mountain,other,stateNUMCode,count,date,distance,money,order,other,percent,period,speed,temperature,size,weightUIUC問題分類體系問題分類分類體系2022/12/11CoarseFineAB問題分類相關(guān)工作概述基于規(guī)則的方法根據(jù)問題體系,人工構(gòu)造規(guī)則匹配例如,Pasca曾使用以下規(guī)則用于問題分類Who<is|was|are|were><personname(s)>?Whatisthedefinitionof<phrasetodefine>?人工構(gòu)造規(guī)則,費(fèi)時費(fèi)力分類體系不同,需要重新構(gòu)造規(guī)則2022/12/12問題分類相關(guān)工作概述基于規(guī)則的方法2022/12/11相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法普通分類器Hacioglu等提出了使用單詞作為特征,并把詞性,短語,名詞實(shí)體添加為特征,利用SVM對問題進(jìn)行分類。(NAACL03)層次分類器Li提出了一種基于SNoW(SparseNetworkofWindow)的層次分類器,它首先將問題句分類到所屬的粗(coarse)類別,然后再分到細(xì)(fine)類別(Coling2002)Donald提出了一種基于問題詞的層次分類器,它首先根據(jù)句子中出現(xiàn)的問題詞進(jìn)行簡單的分類,然后再對每個類別分別訓(xùn)練一個分類器(NaturalLanguageEngineering,2007)2022/12/12相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法2022/12/11相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法基于句法結(jié)構(gòu)的樹狀分類器Zhang利用句法樹的子樹做特征,提出了基于樹形核函數(shù)的SVM問題分類器。(SIGIR02)Minh等人將問題分類任務(wù)轉(zhuǎn)化為對有序樹的分類任務(wù),最終利用最大熵模型和boosting模型完成對問題句子的分類。(IJCAI07)2022/12/12相關(guān)研究:問題分類基于機(jī)器學(xué)習(xí)的方法2022/12/11相關(guān)研究:信息檢索基于關(guān)鍵詞的文章檢索與傳統(tǒng)的文章檢索差別不大更為精細(xì)的Index

(Hickle,TREC07;An,IR4QA08)查詢擴(kuò)展(Bilotti,MITMSthesis04;Riezler,ACL07)相關(guān)反饋(Harabagiu,ACL01;Negri,IR4QA04)句子檢索基于相似度的句子檢索MITRE:詞匹配Alicante:余弦距離ISI:多種相似度匹配組合2022/12/12相關(guān)研究:信息檢索基于關(guān)鍵詞的文章檢索2022/12/11相關(guān)研究:信息檢索句子檢索基于依存語法的句子檢索(Cui,SIGIR05)將問題和備選句子用句法分析器處理,生成句法樹在訓(xùn)練集中獲得依存關(guān)系的對應(yīng)概率對問題和備選句子對齊,分別在兩者中提取關(guān)系路徑選擇備選的關(guān)系路徑中與問題的關(guān)系路徑最相似的作為檢索結(jié)果基于翻譯模型的句子檢索(Murdock,IR4QA04)2022/12/12相關(guān)研究:信息檢索句子檢索2022/12/11相關(guān)研究:答案選取基于模板匹配的答案抽取方法基于嚴(yán)格模板匹配的答案抽取方法(Rav.,ACL02)基于寬松匹配的答案提取方法

(Cui,SIGIR05)模板匹配過于嚴(yán)格,考慮到間隔(gap)問題基于插入,刪除的語言模型和HMM模型2022/12/12模板獲取模板評價答案抽取相關(guān)研究:答案選取基于模板匹配的答案抽取方法2022/12/基于語言學(xué)特征的機(jī)器學(xué)習(xí)方法Ittycheriah利用最大熵模型綜合各種特征對候選答案排序。所使用的特征包含問題擴(kuò)展,中心詞,名詞實(shí)體,依存關(guān)系和匹配模板。(NAACL01)Shen使用支持向量機(jī)的三種核函數(shù):特征向量,字符串核函數(shù),樹形核函數(shù)對候選答案分類。(ACL06)Ko等人使用概率圖模型計(jì)算候選答案正確的概率。特征包含知識庫(Gazetteers,WordNet),基于外部數(shù)據(jù)(Wiki,Google),編輯距離,同義詞(SIGIR07)相關(guān)研究:答案選取2022/12/12基于語言學(xué)特征的機(jī)器學(xué)習(xí)方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論